يحدّد هذا المسرد مصطلحات الذكاء الاصطناعي.
A
الاستئصال
أسلوب لتقييم أهمية ميزة أو مكوّن من خلال إزالته مؤقتًا من نموذج بعد ذلك، يمكنك إعادة تدريب النموذج بدون تلك الميزة أو المكوّن، وإذا كان أداء النموذج الذي تمت إعادة تدريبه أسوأ بكثير، فمن المحتمل أنّ الميزة أو المكوّن الذي تمت إزالته كان مهمًا.
على سبيل المثال، لنفترض أنّك درّبت نموذج تصنيف على 10 ميزات وحقّقت دقة بنسبة% 88 على مجموعة الاختبار. للتحقّق من أهمية الميزة الأولى، يمكنك إعادة تدريب النموذج باستخدام الميزات التسع الأخرى فقط. إذا كان أداء النموذج الذي تم إعادة تدريبه أسوأ بكثير (على سبيل المثال، دقة أقل من% 55)، من المحتمل أنّ الميزة التي تمت إزالتها كانت مهمة. في المقابل، إذا كان النموذج الذي تمّت إعادة تدريبه يؤدي بشكل جيد بنفس القدر، فمن المحتمل أنّ هذه الميزة لم تكن مهمة.
يمكن أن تساعد عملية الاستئصال أيضًا في تحديد أهمية ما يلي:
- المكوّنات الأكبر، مثل نظام فرعي كامل من نظام تعلُّم آلي أكبر
- العمليات أو الأساليب، مثل خطوة المعالجة المُسبقة للبيانات
في كلتا الحالتين، ستلاحظ كيف يتغيّر أداء النظام (أو لا يتغيّر) بعد إزالة المكوّن.
اختبار A/B
طريقة إحصائية لمقارنة أسلوبَين (أو أكثر)، وهما أ وب. عادةً، يكون أ أسلوبًا حاليًا، وب أسلوبًا جديدًا. لا يحدّد اختبار A/B الأسلوب الأفضل أداءً فحسب، بل يحدّد أيضًا ما إذا كان الفرق ذا دلالة إحصائية.
عادةً ما تقارن اختبارات A/B مقياسًا واحدًا بين أسلوبَين، مثل مقارنة دقة النموذج بين أسلوبَين. ومع ذلك، يمكن أن تقارن اختبارات A/B أيضًا أي عدد محدود من المقاييس.
شريحة تسريع
فئة من مكوّنات الأجهزة المتخصّصة المصمَّمة لإجراء العمليات الحسابية الأساسية اللازمة لخوارزميات التعلّم العميق
يمكن أن تؤدي شرائح المعالجة السريعة (أو المعالجات السريعة باختصار) إلى زيادة سرعة وكفاءة مهام التدريب والاستدلال بشكل كبير مقارنةً بوحدة المعالجة المركزية للأغراض العامة. وهي مثالية لتدريب الشبكات العصبية والمهام المشابهة التي تتطلّب قدرة حاسوبية عالية.
تشمل أمثلة شرائح المعالجة السريعة ما يلي:
- وحدات معالجة الموتّرات (TPU) من Google مع أجهزة مخصّصة للتعليم المعمّق
- وحدات معالجة الرسومات من NVIDIA، والتي تم تصميمها في البداية لمعالجة الرسومات، تم تصميمها لتمكين المعالجة المتوازية، ما يمكن أن يؤدي إلى زيادة كبيرة في سرعة المعالجة.
الدقة
عدد التوقّعات الصحيحة للتصنيف مقسومًا على إجمالي عدد التوقّعات والمقصود:
على سبيل المثال، إذا قدّم نموذج 40 توقّعًا صحيحًا و10 توقّعات خاطئة، ستكون دقة النموذج كما يلي:
يقدّم التصنيف الثنائي أسماء محدّدة لمختلف فئات التوقعات الصحيحة والتوقعات غير الصحيحة. إذًا، صيغة الدقة للتصنيف الثنائي هي كما يلي:
where:
- يشير TP إلى عدد الحالات الموجبة الصحيحة (التوقّعات الصحيحة).
- تمثّل TN عدد الحالات السالبة الصحيحة (التوقعات الصحيحة).
- FP هو عدد الحالات الموجبة الخاطئة (التوقعات غير الصحيحة).
- FN هو عدد الحالات السالبة الخاطئة (التوقعات غير الصحيحة).
تحديد أوجه التشابه والاختلاف بين الدقة والضبط والاسترجاع
يمكنك الاطّلاع على التصنيف: الدقة والاسترجاع والضبط والمقاييس ذات الصلة في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
إجراء
في التعلّم التعزيزي، تُعرَّف الحالة بأنّها الآلية التي ينتقل بها الوكيل بين حالات البيئة. يختار الوكيل الإجراء باستخدام سياسة.
دالّة التفعيل
هي دالة تتيح للشبكات العصبونية التعرّف على العلاقات غير الخطية (المعقّدة) بين الميزات والتصنيف.
تشمل دوال التنشيط الشائعة ما يلي:
لا تكون رسومات دوال التنشيط البيانية أبدًا خطوطًا مستقيمة مفردة. على سبيل المثال، يتألف رسم دالة التنشيط ReLU من خطَّين مستقيمَين:
يبدو الرسم البياني لدالة التنشيط السينية كما يلي:
لمزيد من المعلومات، يُرجى الاطّلاع على الشبكات العصبية: دوال التنشيط في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
التعلّم النشط
التدريب هو أسلوب تستخدم فيه الخوارزمية اختيار بعض البيانات التي تتعلّم منها. يكون التعلّم النشط مفيدًا بشكل خاص عندما تكون الأمثلة المصنّفة نادرة أو مكلفة. بدلاً من البحث بشكل عشوائي عن مجموعة متنوّعة من الأمثلة المصنّفة، تبحث خوارزمية التعلّم النشط بشكل انتقائي عن مجموعة الأمثلة المحدّدة التي تحتاجها للتعلّم.
AdaGrad
خوارزمية متطورة لانحدار التدرّج تعيد ضبط مقياس تدرّجات كل مَعلمة، ما يمنح كل مَعلمة معدّل تعلّم مستقلاً. للحصول على شرح كامل، يمكنك الاطّلاع على مقالة Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.
التكيّف
مرادف لعملية الضبط أو الضبط الدقيق
وكيل
برنامج يمكنه تحليل مدخلات المستخدم المتعددة الوسائط من أجل التخطيط وتنفيذ الإجراءات نيابةً عن المستخدم.
في التعلّم التعزيزي، يكون الوكيل هو الكيان الذي يستخدم سياسة لتحقيق أقصى عائد متوقّع من الانتقال بين الحالات الخاصة بالبيئة.
يستند إلى الذكاء الاصطناعي الوكيل
تمثّل هذه السمة صيغة الصفة من وكيل. تشير كلمة "وكيل" إلى الصفات التي يتمتّع بها الوكلاء (مثل الاستقلالية).
سير العمل القائم على وكلاء الذكاء الاصطناعي
عملية ديناميكية يخطّط فيها الوكيل وينفّذ الإجراءات بشكل مستقل لتحقيق هدف. قد تتضمّن العملية الاستدلال واستخدام أدوات خارجية وتصحيح الخطة ذاتيًا.
التجميع من الأسفل إلى الأعلى
اطّلِع على التجميع الهرمي.
هراء الذكاء الاصطناعي
ناتج من نظام ذكاء اصطناعي توليدي يفضّل الكمية على الجودة. على سبيل المثال، صفحة ويب مليئة بمحتوى منخفض الجودة من إنشاء الذكاء الاصطناعي وبكلفة منخفضة.
رصد القيم الشاذة
عملية تحديد القيم الشاذة على سبيل المثال، إذا كان المتوسط لـ ميزة معيّنة هو 100 مع انحراف معياري يبلغ 10، يجب أن تحدّد ميزة "رصد القيم الشاذة" القيمة 200 على أنّها مشبوهة.
الواقع المعزّز
اختصار الواقع المعزّز
المساحة تحت منحنى الدقة والاستدعاء
اطّلِع على المساحة تحت منحنى الدقة والاستدعاء (PR AUC).
المساحة تحت منحنى ROC
اطّلِع على المساحة تحت منحنى ROC.
الذكاء الاصطناعي العام
آلية غير بشرية تُظهر مجموعة واسعة من القدرات على حل المشاكل والإبداع والتكيّف. على سبيل المثال، يمكن لبرنامج يوضّح الذكاء الاصطناعي العام ترجمة النصوص وتأليف السيمفونيات والتفوق في الألعاب التي لم يتم ابتكارها بعد.
الذكاء الاصطناعي
برنامج أو نموذج غير بشري يمكنه حلّ مهام معقّدة على سبيل المثال، يندرج ضمن الذكاء الاصطناعي برنامج أو نموذج يترجم النصوص أو برنامج أو نموذج يحدّد الأمراض من صور الأشعة.
تعلُّم الآلة هو مجال فرعي من الذكاء الاصطناعي. ومع ذلك، بدأت بعض المؤسسات في السنوات الأخيرة تستخدم مصطلحَي الذكاء الاصطناعي وتعلُّم الآلة بالتبادل.
تنبيه
آلية مستخدَمة في شبكة عصبية تشير إلى أهمية كلمة معيّنة أو جزء من كلمة. تؤدي آلية الانتباه إلى تقليل كمية المعلومات التي يحتاج إليها النموذج لتوقّع الرمز المميز/الكلمة التالية. قد تتألف آلية الانتباه النموذجية من مجموع مرجّح على مجموعة من المدخلات، حيث يتم احتساب الوزن لكل مدخل من خلال جزء آخر من الشبكة العصبية.
يُرجى الرجوع أيضًا إلى الانتباه الذاتي والانتباه الذاتي المتعدد الرؤوس، وهما اللبنات الأساسية في المحوّلات.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة تدريبية مكثّفة حول تعلُّم الآلة" لمزيد من المعلومات حول الانتباه الذاتي.
السمة
مرادف ميزة
في سياق عدالة تعلُّم الآلة، تشير السمات غالبًا إلى الخصائص المتعلقة بالأفراد.
أخذ عيّنات من السمات
أسلوب لتدريب غابة القرارات، حيث لا تأخذ كل شجرة قرارات في الاعتبار سوى مجموعة فرعية عشوائية من الميزات المحتملة عند تعلّم الشرط. بشكل عام، يتم أخذ عيّنة من مجموعة فرعية مختلفة من الميزات لكل عقدة. في المقابل، عند تدريب شجرة قرارات بدون أخذ عيّنات من السمات، يتم أخذ جميع الميزات المحتملة في الاعتبار لكل عقدة.
المساحة تحت منحنى ROC
رقم يتراوح بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. كلما اقتربت قيمة AUC من 1.0، كانت قدرة النموذج على فصل الفئات عن بعضها البعض أفضل.
على سبيل المثال، توضّح الصورة التالية نموذج تصنيف يفصل تمامًا بين الفئات الإيجابية (الدوائر الخضراء) والفئات السلبية (المستطيلات الأرجوانية). يحقّق هذا النموذج المثالي بشكل غير واقعي قيمة AUC تبلغ 1.0:
في المقابل، يوضّح الرسم التوضيحي التالي نتائج نموذج تصنيف أنشأ نتائج عشوائية. يحتوي هذا النموذج على قيمة AUC تبلغ 0.5:
نعم، النموذج السابق لديه قيمة AUC تبلغ 0.5، وليس 0.0.
وتقع معظم النماذج في مكان ما بين هذين الحدّين. على سبيل المثال، يفصل النموذج التالي بين القيم الإيجابية والسلبية إلى حد ما، وبالتالي يكون لديه قيمة AUC تتراوح بين 0.5 و1.0:
تتجاهل مقاييس AUC أي قيمة تحدّدها لحدّ التصنيف. بدلاً من ذلك، تأخذ المساحة تحت منحنى ROC في الاعتبار جميع عتبات التصنيف الممكنة.
يمكنك الاطّلاع على التصنيف: منحنى ROC ومقياس AUC في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الواقع المعزّز
هي تكنولوجيا تفرض صورة من إنشاء الكمبيوتر على رؤية المستخدم للعالم الحقيقي، ما يوفّر بالتالي عرضًا مركّبًا.
autoencoder
نظام يتعلّم استخراج المعلومات الأكثر أهمية من البيانات المُدخلة. تتألف برامج الترميز التلقائي من برنامج ترميز وبرنامج فك ترميز. تعتمد برامج الترميز التلقائي على العملية التالية المكوّنة من خطوتَين:
- يحوّل برنامج الترميز الإدخال إلى تنسيق (وسيط) مضغوط (عادةً) ذي أبعاد أقل.
- ينشئ برنامج الترميز نسخة منخفضة الدقة من الإدخال الأصلي من خلال ربط التنسيق المنخفض الأبعاد بتنسيق الإدخال الأصلي العالي الأبعاد.
يتم تدريب برامج الترميز التلقائي بشكل شامل من خلال جعل برنامج فك الترميز يحاول إعادة إنشاء الإدخال الأصلي من التنسيق الوسيط لبرنامج الترميز بأقرب شكل ممكن. بما أنّ التنسيق الوسيط أصغر (أقل أبعادًا) من التنسيق الأصلي، يتم إجبار الترميز التلقائي على التعرّف على المعلومات الأساسية في الإدخال، ولن يكون الإخراج مطابقًا تمامًا للإدخال.
على سبيل المثال:
- إذا كانت بيانات الإدخال عبارة عن رسم، سيكون النسخ غير المطابق مشابهاً للرسم الأصلي، ولكن مع بعض التعديلات. ربما تزيل النسخة غير المطابقة الضوضاء من الرسم الأصلي أو تملأ بعض وحدات البكسل الناقصة.
- إذا كانت بيانات الإدخال نصًا، سينشئ الترميز التلقائي نصًا جديدًا يحاكي النص الأصلي (ولكنه ليس مطابقًا له).
يمكنك الاطّلاع أيضًا على المشفّرات التلقائية المتغيرة.
التقييم التلقائي
استخدام برامج للحكم على جودة نتائج النموذج
عندما يكون ناتج النموذج بسيطًا نسبيًا، يمكن لنص برمجي أو برنامج مقارنة ناتج النموذج بالردّ المثالي. يُطلق على هذا النوع من التقييم التلقائي أحيانًا اسم التقييم الآلي. غالبًا ما تكون مقاييس مثل ROUGE أو BLEU مفيدة للتقييم الآلي.
عندما تكون نتائج النموذج معقّدة أو لا تتضمّن إجابة صحيحة واحدة، يتم أحيانًا إجراء التقييم التلقائي من خلال برنامج منفصل للتعلم الآلي يُعرف باسم المقيّم التلقائي.
يختلف ذلك عن التقييم من جانب المستخدمين.
الانحياز للاقتراحات الآلية
عندما يفضّل صانع القرار البشري الاقتراحات التي تقدّمها أنظمة آلية لاتخاذ القرارات على المعلومات التي يتم جمعها بدون استخدام أنظمة آلية، حتى عندما ترتكب هذه الأنظمة أخطاءً
لمزيد من المعلومات، يُرجى الاطّلاع على الإنصاف: أنواع التحيز في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
AutoML
أي عملية مبرمَجة لإنشاء نماذج تعلُّم الآلة يمكن لـ AutoML تنفيذ مهام مثل ما يلي تلقائيًا:
- ابحث عن النموذج الأنسب.
- اضبط المعلَمات الفائقة.
- إعداد البيانات (بما في ذلك إجراء هندسة الميزات)
- فعِّل النموذج الناتج.
تُعدّ AutoML مفيدة لعلماء البيانات لأنّها يمكن أن توفّر لهم الوقت والجهد في تطوير مسارات تعلُّم الآلة وتحسين دقة التوقّعات. وهي مفيدة أيضًا لغير الخبراء، إذ تتيح لهم تنفيذ مهام معقّدة متعلقة بتعلُّم الآلة.
تتضمّن مكتبات AutoML في Google AI Flow Studio وPyGlove.لمزيد من المعلومات، يمكنك الاطّلاع على تعلُّم الآلة المبرمَج (AutoML) في "دورة مكثّفة عن تعلُّم الآلة".
تقييم autorater
آلية مختلطة لتقييم جودة نتائج نموذج الذكاء الاصطناعي التوليدي تجمع بين التقييم البشري والتقييم الآلي. أداة التقييم التلقائي هي نموذج لتعلُّم الآلة تم تدريبه على بيانات تم إنشاؤها من خلال التقييم البشري. من المفترض أن يتعلّم نظام التقييم الآلي محاكاة أداء المقيِّم البشري.تتوفّر أدوات تقييم تلقائي جاهزة، ولكن أفضلها هي تلك التي تم تحسينها وتخصيصها لتناسب المهمة التي يتم تقييمها.
نموذج الانحدار التلقائي
نموذج يستنتج توقّعًا استنادًا إلى توقعاته السابقة. على سبيل المثال، تتوقّع نماذج اللغة ذات الانحدار الذاتي الرمز المميز التالي استنادًا إلى الرموز المميزة التي تم توقّعها سابقًا. جميع النماذج اللغوية الكبيرة المستندة إلى Transformer هي نماذج ذات انحدار تلقائي.
في المقابل، لا تكون نماذج الصور المستندة إلى الشبكات العدائية التوليدية (GAN) عادةً ذات انحدار تلقائي، لأنّها تنشئ صورة في تمريرة واحدة للأمام وليس بشكل متكرّر على خطوات. ومع ذلك، فإنّ بعض نماذج إنشاء الصور تكون ذات انحدار تلقائي لأنّها تنشئ صورة على عدّة خطوات.
الخسارة الإضافية
دالة الخسارة: تُستخدَم مع دالة الخسارة الرئيسية للنموذج للشبكة العصبية، وتساعد في تسريع عملية التدريب أثناء التكرارات الأولى عندما يتم ضبط الأوزان عشوائيًا.
تساعد دوال الفقدان المساعدة في دفع التدرجات الفعالة إلى الطبقات السابقة. يسهّل ذلك عملية التقارب أثناء التدريب من خلال معالجة مشكلة التدرّج المتلاشي.
متوسط الدقة عند k
مقياس لتلخيص أداء نموذج بشأن طلب واحد يؤدي إلى إنشاء نتائج مرتبة، مثل قائمة مرقّمة باقتراحات كتب متوسط الدقة عند k هو، حسنًا، متوسط قيم الدقة عند k لكل نتيجة ذات صلة. وبالتالي، فإنّ صيغة متوسط الدقة عند k هي:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
where:
- تمثّل السمة\(n\) عدد العناصر ذات الصلة في القائمة.
يختلف هذا المقياس عن مقياس الاسترجاع عند k.
شرط محاذي للمحور
في شجرة القرارات، شرط
يتضمّن ميزة واحدة فقط. على سبيل المثال، إذا كانت area
هي إحدى السمات، يكون الشرط التالي متوافقًا مع المحور:
area > 200
تتعارض مع الشرط المائل.
B
الانتشار العكسي
الخوارزمية التي تنفّذ خوارزمية انحدار التدرّج في الشبكات العصبية
يتضمّن تدريب الشبكة العصبونية العديد من التكرارات للدورة التالية المكوّنة من خطوتَين:
- أثناء التمرير الأمامي، يعالج النظام دفعة من الأمثلة لإنتاج التوقعات. يقارن النظام كل توقّع بقيمة كل تصنيف. الفرق بين القيمة المتوقّعة وقيمة التصنيف هو الخطأ في هذا المثال. يجمع النظام الخسائر لجميع الأمثلة من أجل احتساب إجمالي الخسارة للدُفعة الحالية.
- أثناء التمرير الخلفي (الانتشار الخلفي)، يقلّل النظام من الفقد من خلال تعديل أوزان جميع الخلايا العصبية في جميع الطبقات المخفية.
غالبًا ما تحتوي الشبكات العصبية على العديد من الخلايا العصبية في العديد من الطبقات المخفية. يساهم كل عصبون من هذه العصبونات في الخسارة الإجمالية بطرق مختلفة. تحدّد عملية الانتشار العكسي ما إذا كان يجب زيادة الأوزان المطبَّقة على الخلايا العصبية المحدّدة أو خفضها.
معدّل التعلّم هو عامل ضرب يتحكّم في درجة زيادة أو خفض كل وزن في كل تمرير للخلف. سيؤدي معدّل التعلّم الكبير إلى زيادة أو خفض كل وزن بشكل أكبر من معدّل التعلّم الصغير.
من الناحية الحسابية، تنفّذ عملية الانتشار العكسي قاعدة السلسلة من الحساب التفاضلي والتكاملي. أي أنّ عملية الانتشار العكسي تحسب المشتق الجزئي للخطأ بالنسبة إلى كل مَعلمة.
قبل سنوات، كان على مطوّري تعلُّم الآلة كتابة تعليمات برمجية لتنفيذ الانتشار الخلفي. تنفّذ واجهات برمجة التطبيقات الحديثة لتعلُّم الآلة، مثل Keras، الآن عملية الانتشار العكسي نيابةً عنك. أخيرًا!
لمزيد من المعلومات، يُرجى الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة".
التجميع
يشير ذلك المصطلح إلى طريقة تدريب مجموعة موحّدة يتم فيها تدريب كل نموذج مكوِّن على مجموعة فرعية عشوائية من أمثلة التدريب يتم جمع عيّناتها مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات التي يتم تدريبها باستخدام أسلوب التجميع.
مصطلح bagging هو اختصار لعبارة bootstrap aggregating.
يمكنك الاطّلاع على الغابات العشوائية في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.
حقيبة الكلمات
تمثيل للكلمات في عبارة أو فقرة، بغض النظر عن الترتيب على سبيل المثال، تمثّل حقيبة الكلمات العبارات الثلاث التالية بشكل مطابق:
- الكلب يقفز
- قفز الكلب
- كلب يقفز
يتم ربط كل كلمة بفهرس في متجه متفرق، حيث يتضمّن المتجه فهرسًا لكل كلمة في المفردات. على سبيل المثال، يتم ربط العبارة الكلب يقفز بمتجه ميزات يتضمّن قيمًا غير صفرية في الفهارس الثلاثة المقابلة للكلمات الكلب ويقفز والـ. يمكن أن تكون القيمة غير الصفرية أيًّا ممّا يلي:
- الرقم 1 للإشارة إلى وجود كلمة
- عدد المرّات التي تظهر فيها كلمة في الحزمة على سبيل المثال، إذا كانت العبارة هي الكلب الأحمر هو كلب ذو فرو أحمر، سيتم تمثيل كل من أحمر وكلب بالرقم 2، بينما سيتم تمثيل الكلمات الأخرى بالرقم 1.
- قيمة أخرى، مثل اللوغاريتم الخاص بعدد مرات ظهور كلمة في الحزمة
المرجع
نموذج يُستخدَم كنقطة مرجعية لمقارنة مستوى أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، يمكن أن يكون نموذج الانحدار اللوجستي أساسًا جيدًا للنموذج العميق.
بالنسبة إلى مشكلة معيّنة، يساعد خط الأساس مطوّري النماذج في تحديد الحد الأدنى المتوقّع للأداء الذي يجب أن يحقّقه النموذج الجديد ليكون مفيدًا.
النموذج الأساسي
نموذج مدرَّب مسبقًا يمكن استخدامه كنقطة بداية للتحسين من أجل معالجة مهام أو تطبيقات محدّدة.
اطّلِع أيضًا على النموذج المدرَّب مسبقًا والنموذج الأساسي.
دفعة
مجموعة الأمثلة المستخدَمة في إحدى التكرارات التدريبية. يحدّد حجم الدفعة عدد الأمثلة في الدفعة.
راجِع مقالة الفترة للحصول على شرح حول كيفية ارتباط الدفعة بالفترة.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الاستدلال المجمّع
عملية استنتاج التوقعات بشأن عدة أمثلة غير مصنّفة مقسّمة إلى مجموعات فرعية أصغر ("دفعات").
يمكن أن تستفيد الاستنتاجات المجمّعة من ميزات التوازي في شرائح الأجهزة المسرّعة. وهذا يعني أنّه يمكن للعديد من أدوات التسريع أن تستنتج التوقعات في الوقت نفسه بشأن مجموعات مختلفة من الأمثلة غير المصنّفة، ما يؤدي إلى زيادة عدد الاستنتاجات في الثانية بشكل كبير.
يمكنك الاطّلاع على أنظمة تعلُّم الآلة الخاصة بالإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
التسوية على دفعات
تسوية الإدخال أو الإخراج لدوال التنشيط في طبقة مخفية يمكن أن يوفّر التسوية على مستوى المجموعة المزايا التالية:
- زيادة استقرار الشبكات العصبونية من خلال الحماية من الأوزان الشاذة
- فعِّل معدّلات التعلّم الأعلى، ما قد يؤدي إلى تسريع التدريب.
- تقليل التطابق الزائد
حجم الدفعة
عدد الأمثلة في دفعة على سبيل المثال، إذا كان حجم الدفعة 100، سيعالج النموذج 100 مثال لكل تكرار.
في ما يلي استراتيجيات شائعة لحجم الدُفعات:
- النزول المتدرّج العشوائي (SGD)، حيث يكون حجم الدفعة 1
- المجموعة الكاملة، حيث يكون حجم المجموعة هو عدد الأمثلة في مجموعة التدريب بأكملها. على سبيل المثال، إذا كانت مجموعة التدريب تحتوي على مليون مثال، سيكون حجم الدفعة مليون مثال. عادةً ما تكون الدفعة الكاملة استراتيجية غير فعّالة.
- الدُفعات الصغيرة التي يتراوح حجم الدفعة فيها عادةً بين 10 و1000. عادةً ما تكون استراتيجية الدُفعات الصغيرة هي الأكثر كفاءة.
يُرجى الاطّلاع على ما يلي لمزيد من المعلومات:
- أنظمة تعلُّم الآلة في مرحلة الإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلُّم الآلة"
- Deep Learning Tuning Playbook
شبكة عصبية بايزية
شبكة عصبية احتمالية تأخذ في الاعتبار عدم اليقين في الأوزان والنتائج. عادةً ما يتوقّع نموذج الانحدار المستند إلى الشبكة العصبية القياسية قيمة عددية، فعلى سبيل المثال، يتوقّع النموذج القياسي سعر منزل يبلغ 853,000 ريال سعودي. في المقابل، تتنبّأ الشبكة العصبية البايزية بتوزيع القيم، فعلى سبيل المثال، يتنبّأ نموذج بايزي بسعر منزل يبلغ 853,000 دولار أمريكي بانحراف معياري يبلغ 67,200 دولار أمريكي.
تعتمد الشبكة العصبية البايزية على نظرية بايز لحساب حالات عدم اليقين في الأوزان والتوقعات. يمكن أن تكون الشبكة العصبية البايزية مفيدة عندما يكون من المهم تحديد مقدار عدم اليقين، كما هو الحال في النماذج المتعلقة بالأدوية. يمكن أن تساعد الشبكات العصبونية البايزية أيضًا في منع التطابق الزائد.
التحسين البايزي
نموذج الانحدار الاحتمالي هو أسلوب لتحسين دوال الهدف التي تتطلّب قدرًا كبيرًا من العمليات الحسابية، وذلك من خلال تحسين بديل يحدّد مقدار عدم اليقين باستخدام أسلوب التعلّم "بايزي". بما أنّ عملية التحسين المستندة إلى الإحصاء البايزي مكلفة جدًا، يتم استخدامها عادةً لتحسين المهام التي يصعب تقييمها والتي تتضمّن عددًا صغيرًا من المَعلمات، مثل اختيار المَعلمات الفائقة.
معادلة بيلمان
في التعلّم المعزّز، يتم استيفاء الهوية التالية من خلال دالة Q المثالية:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
تطبّق خوارزميات التعلّم المعزّز هذه الهوية لإنشاء تعلّم Q باستخدام قاعدة التعديل التالية:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
بالإضافة إلى التعلّم المعزّز، يمكن تطبيق معادلة بيلمان في البرمجة الديناميكية. يمكنك الاطّلاع على مدخل Wikipedia حول معادلة بيلمان.
BERT (تمثيلات الترميز الثنائية الاتجاه من المحولات)
بنية نموذج لتمثيل النص يمكن أن يعمل نموذج BERT مدرَّب كجزء من نموذج أكبر لتصنيف النصوص أو مهام تعلُّم آلي أخرى.
تتضمّن BERT الخصائص التالية:
- يستخدم بنية Transformer، وبالتالي يعتمد على الانتباه الذاتي.
- يستخدم جزء برنامج الترميز في Transformer. مهمة أداة الترميز هي إنتاج تمثيلات نصية جيدة، وليس تنفيذ مهمة محددة مثل التصنيف.
- ثنائي الاتجاه
- تستخدم الإخفاء في التدريب غير الخاضع للإشراف.
تشمل صيغ BERT ما يلي:
يمكنك الاطّلاع على Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing للحصول على نظرة عامة حول BERT.
التحيّز (الأخلاقيات/العدالة)
1. التحيّز أو التمييز أو المحاباة تجاه بعض الأشياء أو الأشخاص أو المجموعات دون غيرها يمكن أن تؤثّر هذه الانحيازات في جمع البيانات وتفسيرها، وفي تصميم النظام، وفي طريقة تفاعل المستخدمين مع النظام. تشمل أشكال هذا النوع من التحيز ما يلي:
- تحيّز الأتمتة
- الانحياز التأكيدي
- تحيّز المجرب
- الانحياز لتشابه المجموعة
- التحيّز الضمني
- الانحياز لأفراد المجموعة
- الانحياز للتشابه خارج المجموعة
2. خطأ منهجي ناتج عن إجراءات أخذ العيّنات أو إعداد التقارير تشمل أشكال هذا النوع من التحيز ما يلي:
- انحياز في التغطية
- الانحياز لعدم الإجابة
- انحياز المشاركة
- الانحياز لتكرار التقارير
- انحياز في جمع العيّنات
- الانحياز في الاختيار
يجب عدم الخلط بينه وبين مصطلح الانحياز في نماذج تعلُّم الآلة أو انحياز التوقّعات.
يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
الانحياز (رياضيات) أو مصطلح الانحياز
نقطة اعتراض أو إزاحة من نقطة الأصل التحيّز هو مَعلمة في نماذج تعلُّم الآلة، ويتم تمثيله بأحد الرمزين التاليين:
- b
- w0
على سبيل المثال، التحيز هو b في الصيغة التالية:
في خط بسيط ثنائي الأبعاد، يعني التحيز ببساطة "نقطة التقاطع مع المحور الصادي". على سبيل المثال، يبلغ ميل الخط في الرسم التوضيحي التالي 2.
يحدث التحيز لأنّ بعض النماذج لا تبدأ من نقطة الأصل (0,0). على سبيل المثال، لنفترض أنّ تكلفة الدخول إلى مدينة ملاهٍ هي 2 يورو، بالإضافة إلى 0.5 يورو لكل ساعة يقضيها العميل. لذلك، فإنّ نموذجًا يربط التكلفة الإجمالية بانحياز قدره 2 لأنّ أدنى تكلفة هي 2 يورو.
يجب عدم الخلط بين التحيز والتحيز في الأخلاقيات والعدالة أو التحيز في التوقعات.
يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
ثنائي الاتجاه
مصطلح يُستخدم لوصف نظام يقيّم النص الذي يسبق والنص الذي يلي جزءًا مستهدفًا من النص. في المقابل، لا يقيّم النظام أحادي الاتجاه سوى النص الذي يسبق جزءًا مستهدفًا من النص.
على سبيل المثال، فكِّر في نموذج لغة مخفي يجب أن يحدّد احتمالات الكلمة أو الكلمات التي تمثّل الخط السفلي في السؤال التالي:
ما هي _____ لديك؟
يجب أن يستند النموذج اللغوي أحادي الاتجاه إلى الاحتمالات التي يوفّرها السياق فقط من خلال الكلمات "ما" و"هو" و "ال". في المقابل، يمكن لنموذج لغة ثنائي الاتجاه أن يستمد السياق أيضًا من الكلمتين "مع" و "أنت"، ما قد يساعد النموذج في إنشاء توقّعات أفضل.
نموذج لغوي ثنائي الاتجاه
نموذج لغوي يحدّد احتمالية ظهور رمز مميز معيّن في موضع معيّن ضمن مقتطف نصي استنادًا إلى النص السابق والنص التالي.
bigram
ثنائي حيث ن=2
التصنيف الثنائي
نوع من مهام التصنيف التي تتوقّع إحدى الفئتين الحصريتين:
على سبيل المثال، يؤدي نموذجا تعلُّم الآلة التاليان التصنيف الثنائي:
- نموذج يحدّد ما إذا كانت الرسائل الإلكترونية غير مرغوب فيها (الفئة الإيجابية) أو مرغوب فيها (الفئة السلبية).
- نموذج يقيّم الأعراض الطبية لتحديد ما إذا كان الشخص مصابًا بمرض معيّن (الفئة الإيجابية) أو غير مصاب به (الفئة السلبية).
يجب عدم الخلط بينه وبين التصنيف المتعدد الفئات.
راجِع أيضًا الانحدار اللوجستي وحد التصنيف.
يمكنك الاطّلاع على التصنيف في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الشرط الثنائي
في شجرة القرار، الشرط الذي يتضمّن نتيجتَين محتمَلتَين فقط، عادةً نعم أو لا. على سبيل المثال، الشرط الثنائي التالي:
temperature >= 100
يختلف عن الحالة غير الثنائية.
اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
تحويل القيم
مرادف للتجميع في مجموعات
نموذج الصندوق الأسود
نموذج يستحيل أو يصعب على البشر فهم "طريقة تفكيره". أي أنّه على الرغم من أنّ البشر يمكنهم معرفة كيف تؤثر الطلبات في الردود، لا يمكنهم تحديد الطريقة التي يحدّد بها نموذج الصندوق الأسود الردّ. بعبارة أخرى، يفتقر نموذج الصندوق الأسود إلى التفسير.
معظم النماذج العميقة والنماذج اللغوية الكبيرة هي صناديق سوداء.
BLEU (التقييم الثنائي للترجمة الآلية)
مقياس يتراوح بين 0.0 و1.0 لتقييم الترجمات الآلية، مثلاً من الإسبانية إلى اليابانية
لحساب النتيجة، تقارن مقاييس BLEU عادةً ترجمة نموذج تعلُّم الآلة (النص الذي تم إنشاؤه) بترجمة خبير بشري (النص المرجعي). تُحدّد درجة تطابق العبارات المكونة من N كلمة في النص الذي تم إنشاؤه مع النص المرجعي درجة BLEU.
يمكنك الاطّلاع على الورقة البحثية الأصلية حول هذا المقياس BLEU: a Method for Automatic Evaluation of Machine Translation.
يمكنك الاطّلاع أيضًا على BLEURT.
BLEURT (التقييم الثنائي اللغة باستخدام أدوات تحويل)
مقياس لتقييم الترجمات الآلية من لغة إلى أخرى، لا سيما من الإنجليزية وإليها.
بالنسبة إلى الترجمات من الإنجليزية وإليها، تتوافق مقاييس BLEURT بشكل أكبر مع تقييمات البشر مقارنةً بمقاييس BLEU. على عكس BLEU، تؤكّد BLEURT على التشابهات الدلالية (المعنى) ويمكنها استيعاب إعادة الصياغة.
يعتمد مقياس BLEURT على نموذج لغوي كبير مدرَّب مسبقًا (BERT تحديدًا) يتم بعد ذلك تحسينه باستخدام نصوص من مترجمين بشريين.
المستند الأصلي حول هذا المقياس هو BLEURT: Learning Robust Metrics for Text Generation.
أسئلة منطقية (BoolQ)
مجموعة بيانات لتقييم مدى إتقان نموذج لغوي كبير للإجابة عن أسئلة بنعم أو لا يتضمّن كل تحدٍّ في مجموعة البيانات ثلاثة عناصر:
- طلب البحث
- تمثّل هذه السمة مقطعًا يشير إلى الإجابة عن طلب البحث.
- الإجابة الصحيحة، وهي إما نعم أو لا
على سبيل المثال:
- طلب البحث: هل هناك أي محطات طاقة نووية في ميشيغان؟
- المقطع: ...توفّر ثلاث محطات للطاقة النووية حوالي% 30 من الكهرباء في ولاية ميشيغان.
- الإجابة الصحيحة: نعم
جمع الباحثون الأسئلة من طلبات بحث مجمّعة ومجهولة المصدر على "بحث Google"، ثم استخدموا صفحات Wikipedia لتحديد المعلومات الأساسية.
لمزيد من المعلومات، يُرجى الاطّلاع على BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions.
BoolQ هي أحد مكوّنات مجموعة SuperGLUE.
BoolQ
اختصار الأسئلة المنطقية
التعزيز
إحدى تقنيات تعلُّم الآلة التي تجمع بشكل متكرّر مجموعة من نماذج التصنيف البسيطة وغير الدقيقة جدًا (المعروفة باسم "المصنّفات الضعيفة") في نموذج تصنيف عالي الدقة (يُعرف باسم "المصنّف القوي") من خلال زيادة وزن الأمثلة التي يصنّفها النموذج حاليًا بشكل خاطئ.
يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
مربّع الحدود
في الصورة، تمثّل الإحداثيات (x، y) مستطيلاً يحيط بمنطقة مهمة، مثل الكلب في الصورة أدناه.
البث
توسيع شكل عامل في عملية حسابية على المصفوفات إلى أبعاد متوافقة مع هذه العملية على سبيل المثال، يتطلّب الجبر الخطي أن يكون للمعاملَين في عملية إضافة المصفوفة الأبعاد نفسها. وبالتالي، لا يمكنك إضافة مصفوفة ذات شكل (m, n) إلى متجه بطول n. تتيح عملية البث هذه العملية من خلال توسيع المتّجه الذي يبلغ طوله n إلى مصفوفة ذات شكل (m, n) عن طريق تكرار القيم نفسها في كل عمود.
اطّلِع على الوصف التالي للبث في NumPy للحصول على مزيد من التفاصيل.
تقسيم البيانات إلى مجموعات
تحويل سمة واحدة إلى سمات ثنائية متعددة تُعرف باسم حِزم أو فئات، ويتم ذلك عادةً استنادًا إلى نطاق قيمة. عادةً ما تكون الميزة المقطّعة ميزة مستمرة.
على سبيل المثال، بدلاً من تمثيل درجة الحرارة كميزة واحدة مستمرة ذات فاصلة عائمة، يمكنك تقسيم نطاقات درجات الحرارة إلى فئات منفصلة، مثل:
- ستكون درجة الحرارة التي تقل عن أو تساوي 10 درجات مئوية ضمن فئة "البارد".
- ستكون درجات الحرارة بين 11 و24 درجة مئوية ضمن الفئة "معتدلة".
- >= 25 درجة مئوية ستكون الفئة "دافئ".
سيتعامل النموذج مع كل قيمة في المجموعة نفسها بشكل مماثل. على سبيل المثال، تندرج القيمتان 13 و22 ضمن الفئة المعتدلة، وبالتالي يتعامل النموذج مع القيمتين بشكل مماثل.
لمزيد من المعلومات، راجِع البيانات الرقمية: التصنيف إلى فئات في "دورة مكثّفة عن تعلّم الآلة".
C
طبقة المعايرة
تعديل ما بعد التوقّع، ويتم عادةً لتفسير تحيّز التوقّع. يجب أن تتطابق التوقعات والاحتمالات المعدَّلة مع توزيع مجموعة من التصنيفات التي تمت ملاحظتها.
إنشاء العناصر المحفّزة لعرض الإعلانات
المجموعة الأولية من الاقتراحات التي يختارها نظام الاقتراحات على سبيل المثال، تخيّل مكتبة تبيع 100,000 عنوان. تنشئ مرحلة إنشاء المرشّحين قائمة أصغر بكثير من الكتب المناسبة لمستخدم معيّن، ولنفترض أنّها تضم 500 كتاب. ولكن حتى 500 كتاب هو عدد كبير جدًا لاقتراحه على المستخدم. تؤدي المراحل اللاحقة والأكثر تكلفة في نظام التوصية (مثل التسجيل وإعادة الترتيب) إلى تقليل عدد هذه النتائج البالغ 500 إلى مجموعة أصغر بكثير وأكثر فائدة من التوصيات.
يمكنك الاطّلاع على نظرة عامة حول إنشاء المرشّحين في دورة "أنظمة الاقتراحات" التدريبية للحصول على مزيد من المعلومات.
تحليل العينات المُحتملة
تحسين وقت التدريب الذي يحسب احتمالية لجميع التصنيفات الإيجابية، باستخدام، على سبيل المثال، softmax، ولكن فقط لعينة عشوائية من التصنيفات السلبية على سبيل المثال، إذا كان لديك مثال مصنّف على أنّه كلب بيغل وكلب، فإنّ أخذ عينات من المرشّحين يحسب الاحتمالات المتوقّعة ومصطلحات الخسارة المقابلة لما يلي:
- بيغل
- dog
- مجموعة فرعية عشوائية من الفئات السلبية المتبقية (على سبيل المثال، قطة ومصاصة وسياج).
الفكرة هي أنّ الفئات السلبية يمكن أن تستفيد من التعزيز السلبي الأقل تكرارًا طالما أنّ الفئات الإيجابية تتلقّى دائمًا التعزيز الإيجابي المناسب، وقد تم رصد ذلك تجريبيًا بالفعل.
تكون عملية أخذ عينات من المرشحين أكثر فعالية من حيث الحوسبة مقارنةً بخوارزميات التدريب التي تحسب التوقعات لكل الفئات السلبية، خاصةً عندما يكون عدد الفئات السلبية كبيرًا جدًا.
البيانات الفئوية
السمات التي تتضمّن مجموعة محدّدة من القيم المحتملة على سبيل المثال، لنفترض أنّ هناك ميزة فئوية باسم traffic-light-state، والتي يمكن أن تتضمّن إحدى القيم الثلاث التالية فقط:
redyellowgreen
من خلال تمثيل traffic-light-state كميزة فئوية، يمكن للنموذج التعرّف على التأثيرات المختلفة لكل من red وgreen وyellow في سلوك السائق.
يُطلق على الميزات الفئوية أحيانًا اسم الميزات المنفصلة.
يختلف عن البيانات الرقمية.
لمزيد من المعلومات، راجِع استخدام البيانات الفئوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
نموذج لغوي سببي
مرادف نموذج اللغة أحادي الاتجاه
يمكنك الاطّلاع على نموذج اللغة الثنائي الاتجاه للمقارنة بين الأساليب المختلفة للاتجاهات في نماذج اللغة.
CB
اختصار CommitmentBank
مركز
مركز المجموعة كما تحدده خوارزمية k-means أو خوارزمية k-median على سبيل المثال، إذا كانت قيمة k هي 3، ستعثر الخوارزمية التصنيفية أو خوارزمية تحليل المجموعات على 3 نقاط مركزية.
لمزيد من المعلومات، يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع.
التجميع العنقودي المستند إلى النقاط المركزية
فئة من خوارزميات التجميع العنقودي التي تنظّم البيانات في مجموعات غير هرمية، وتُعد خوارزمية k-means الأكثر استخدامًا بين خوارزميات التجميع العنقودي المستندة إلى نقطة مركزية.
يختلف ذلك عن خوارزميات التجميع الهرمي.
لمزيد من المعلومات، يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع.
توجيه سلسلة الأفكار
إحدى تقنيات تصميم الطلبات التي تشجّع النماذج اللغوية الكبيرة (LLM) على شرح طريقة تفكيرها خطوة بخطوة. على سبيل المثال، اطّلِع على الطلب التالي، مع التركيز بشكل خاص على الجملة الثانية:
ما هو عدد قوى الجاذبية التي سيشعر بها السائق في سيارة تنتقل من 0 إلى 60 ميلاً في الساعة خلال 7 ثوانٍ؟ في الإجابة، أدرِج جميع العمليات الحسابية ذات الصلة.
من المرجّح أن يكون رد النموذج اللغوي الكبير على النحو التالي:
- عرض سلسلة من صيغ الفيزياء، مع إدخال القيم 0 و60 و7 في الأماكن المناسبة
- اشرح سبب اختيار هذه الصيغ وما تعنيه المتغيّرات المختلفة.
يفرض الطلب المستند إلى سلسلة الأفكار على النموذج اللغوي الكبير إجراء جميع العمليات الحسابية، ما قد يؤدي إلى تقديم إجابة أكثر صحة. بالإضافة إلى ذلك، يتيح أسلوب "سلسلة الأفكار" للمستخدم فحص خطوات النموذج اللغوي الكبير لتحديد ما إذا كانت الإجابة منطقية أم لا.
مقياس دقة الاختبار (F-score) لـ N-gram الخاص بالأحرف (ChrF)
مقياس لتقييم نماذج الترجمة الآلية تحدّد نتيجة F الخاصة بـ N-gram للأحرف درجة تطابق N-gram في النص المرجعي مع N-gram في النص الذي تم إنشاؤه بواسطة نموذج تعلّم آلي.
يشبه مقياس F-score الخاص بـ N-gram للأحرف المقاييس في عائلتَي ROUGE وBLEU، باستثناء ما يلي:
- تعمل نتيجة F-score لـ N-gram الأحرف على N-gram الأحرف.
- تعمل مقاييس ROUGE وBLEU على كلمات N-grams أو رموز.
محادثة
محتوى حوار ذهابًا وإيابًا مع نظام تعلُّم آلي، ويكون عادةً نموذجًا لغويًا كبيرًا. تصبح التفاعلات السابقة في المحادثة (ما كتبته وكيفية ردّ النموذج اللغوي الكبير) هي سياق الأجزاء اللاحقة من المحادثة.
روبوت الدردشة هو تطبيق لنموذج لغوي كبير.
نقطة تفتيش
البيانات التي تسجّل حالة المَعلمات الخاصة بالنموذج، سواء أثناء التدريب أو بعد اكتماله على سبيل المثال، أثناء التدريب، يمكنك إجراء ما يلي:
- إيقاف التدريب، ربما عن قصد أو ربما نتيجة حدوث أخطاء معيّنة
- احفظ النقطة المرجعية.
- بعد ذلك، أعِد تحميل نقطة التحقّق، ربما على جهاز مختلف.
- إعادة بدء التدريب
اختيار البدائل المعقولة (COPA)
مجموعة بيانات لتقييم مدى قدرة نموذج لغوي كبير على تحديد أفضل إجابتَين بديلتَين عن فرضية. يتألف كل تحدٍ في مجموعة البيانات من ثلاثة عناصر:
- مقدمة، وهي عادةً عبارة متبوعة بسؤال
- إجابتان محتملتان عن السؤال المطروح في المقدمة، إحداهما صحيحة والأخرى غير صحيحة
- الإجابة الصحيحة
على سبيل المثال:
- الفرضية: كسر الرجل إصبع قدمه. ما هو سبب حدوث ذلك؟
- الإجابات المحتملة:
- ظهر ثقب في جوربه.
- سقط مطرقة على قدمه.
- الإجابة الصحيحة: 2
COPA هي أحد مكوّنات مجموعة SuperGLUE.
صنف
فئة يمكن أن تنتمي إليها التسمية. على سبيل المثال:
- في نموذج التصنيف الثنائي الذي يرصد الرسائل غير المرغوب فيها، قد تكون الفئتان رسائل غير مرغوب فيها وليست رسائل غير مرغوب فيها.
- في نموذج التصنيف المتعدّد الفئات الذي يحدّد سلالات الكلاب، قد تكون الفئات بودل وبيغل وبَغ وما إلى ذلك.
نموذج التصنيف يتنبأ بفئة. في المقابل، يتنبأ نموذج الانحدار برقم بدلاً من فئة.
يمكنك الاطّلاع على التصنيف في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مجموعة بيانات متوازنة الفئات
مجموعة بيانات تحتوي على تصنيفات فئوية يكون فيها عدد مثيلات كل فئة متساويًا تقريبًا. على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات نباتية يمكن أن تكون تصنيفاتها الثنائية إما نبات محلي أو نبات غير محلي:
- مجموعة البيانات التي تتضمّن 515 نباتًا أصليًا و485 نباتًا غير أصلي هي مجموعة بيانات متوازنة الفئات.
- مجموعة البيانات التي تتضمّن 875 نباتًا أصليًا و125 نباتًا غير أصلي هي مجموعة بيانات غير متوازنة الفئات.
لا يوجد خط فاصل رسمي بين مجموعات البيانات المتوازنة الفئات ومجموعات البيانات غير المتوازنة الفئات. لا يصبح التمييز مهمًا إلا عندما يتعذّر تقارب نموذج تم تدريبه على مجموعة بيانات غير متوازنة بشكل كبير. راجِع مجموعات البيانات: مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلُّم الآلة" للحصول على التفاصيل.
نموذج التصنيف
نموذج يكون توقّعه فئة. على سبيل المثال، كلّ ما يلي هي نماذج تصنيف:
- نموذج يتوقّع لغة جملة إدخال (هل هي فرنسية؟ الإسبانية؟ الإيطالية؟
- نموذج يتوقّع أنواع الأشجار (قيقب؟ سنديان؟ Baobab?).
- نموذج يتنبأ بالفئة الإيجابية أو السلبية لحالة طبية معيّنة.
في المقابل، تتنبأ نماذج الانحدار بالأرقام بدلاً من الفئات.
في ما يلي نوعان شائعان من نماذج التصنيف:
عتبة التصنيف
في التصنيف الثنائي، يكون العدد بين 0 و1 الذي يحوّل الناتج الأولي لنموذج الانحدار اللوجستي إلى توقع إما الفئة الإيجابية أو الفئة السلبية. يُرجى العِلم أنّ حدّ التصنيف هو قيمة يختارها الإنسان، وليس قيمة يختارها تدريب النموذج.
يُخرج نموذج الانحدار اللوجستي قيمة أولية بين 0 و1. بعد ذلك:
- إذا كانت هذه القيمة الأولية أكبر من حد التصنيف، سيتم توقّع الفئة الموجبة.
- إذا كانت هذه القيمة الأولية أقل من حد التصنيف، يتم التنبؤ بالفئة السلبية.
على سبيل المثال، لنفترض أنّ حد التصنيف هو 0.8. إذا كانت القيمة الأولية 0.9، سيتوقّع النموذج الفئة الموجبة. إذا كانت القيمة الأولية 0.7، يتوقّع النموذج الفئة السلبية.
يؤثر اختيار حد التصنيف بشكل كبير في عدد الموجب الخاطئ والسالب الخاطئ.
لمزيد من المعلومات، يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة".
مصنِّف
مصطلح عام يشير إلى نموذج التصنيف.
مجموعة بيانات غير متوازنة الفئات
مجموعة بيانات خاصة بالتصنيف يختلف فيها إجمالي عدد التصنيفات لكل فئة بشكل كبير. على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات تصنيف ثنائي مقسّمة إلى فئتَين على النحو التالي:
- مليون تصنيف سلبي
- 10 تصنيفات إيجابية
نسبة التصنيفات السلبية إلى الإيجابية هي 100,000 إلى 1، لذا هذه مجموعة بيانات غير متوازنة الفئات.
في المقابل، مجموعة البيانات التالية متوازنة الفئات لأنّ نسبة التصنيفات السلبية إلى التصنيفات الإيجابية قريبة نسبيًا من 1:
- 517 تصنيفًا سلبيًا
- 483 تصنيفًا إيجابيًا
يمكن أن تكون مجموعات البيانات المتعددة الفئات غير متوازنة الفئات أيضًا. على سبيل المثال، مجموعة بيانات التصنيف المتعدد الفئات التالية غير متوازنة الفئات أيضًا لأنّ إحدى التصنيفات تتضمّن أمثلة أكثر بكثير من التصنيفين الآخرين:
- مليون تصنيف من الفئة "أخضر"
- 200 تصنيف بالصف "أرجواني"
- 350 تصنيفًا بالصف "برتقالي"
يمكن أن يواجه تدريب مجموعات البيانات غير المتوازنة الفئات تحديات خاصة. راجِع مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة" للحصول على التفاصيل.
يمكنك الاطّلاع أيضًا على الإنتروبيا وفئة الأغلبية وفئة الأقلية.
القص
أسلوب للتعامل مع القيم الشاذة من خلال تنفيذ أحد الإجراءَين التاليَين أو كليهما:
- تخفيض قيم السمة التي تتجاوز الحد الأقصى إلى هذا الحد الأقصى
- زيادة قيم الميزات التي تقل عن الحد الأدنى إلى هذا الحد الأدنى
على سبيل المثال، لنفترض أنّ <0.5% من قيم ميزة معيّنة تقع خارج النطاق 40-60. في هذه الحالة، يمكنك إجراء ما يلي:
- يجب أن تكون جميع القيم التي تزيد عن 60 (الحدّ الأقصى) هي 60 بالضبط.
- يجب أن تكون جميع القيم الأقل من 40 (الحد الأدنى) هي 40 بالضبط.
يمكن أن تتسبّب القيم الشاذة في إتلاف النماذج، ما يؤدي أحيانًا إلى تجاوز الأوزان أثناء التدريب. يمكن أن تؤدي بعض القيم الشاذة أيضًا إلى إفساد مقاييس مثل الدقة بشكل كبير. القص هو أسلوب شائع للحد من الضرر.
تفرض عملية اقتطاع التدرّج أن تكون قيم التدرّج ضمن نطاق محدّد أثناء التدريب.
لمزيد من المعلومات، راجِع البيانات الرقمية: التسوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
Cloud TPU
أداة تسريع أجهزة متخصّصة مصمّمة لتسريع مهام تعلُّم الآلة على Google Cloud
التجميع
تجميع الأمثلة ذات الصلة، خاصةً أثناء التعلّم غير الموجَّه بعد تجميع كل الأمثلة، يمكن للمستخدم أن يقدّم بشكل اختياري معنى لكل مجموعة.
تتوفّر العديد من خوارزميات التجميع العنقودي. على سبيل المثال، تجمع خوارزمية k-means الأمثلة استنادًا إلى مدى قربها من نقطة مركزية، كما هو موضّح في الرسم البياني التالي:
يمكن بعد ذلك أن يراجع باحث بشري المجموعات ويصنّف المجموعة 1 على أنّها "أشجار قزمة" والمجموعة 2 على أنّها "أشجار كاملة الحجم".
كمثال آخر، لنفترض أنّ هناك خوارزمية تجميع عنقودي تستند إلى المسافة بين مثال ونقطة مركزية، كما هو موضّح أدناه:
يمكنك الاطّلاع على دورة التجميع لمزيد من المعلومات.
التكيّف المشترك
هي سلوك غير مرغوب فيه يحدث عندما تتوقّع الخلايا العصبية أنماطًا في بيانات التدريب من خلال الاعتماد بشكل حصري تقريبًا على نواتج خلايا عصبية أخرى معيّنة بدلاً من الاعتماد على سلوك الشبكة ككل. عندما لا تتوفّر الأنماط التي تؤدي إلى التكيّف المشترك في بيانات التحقّق، يؤدي التكيّف المشترك إلى الإفراط في التكيّف. تؤدي التسوية باستخدام التساقط إلى الحد من التكيّف المشترك، لأنّ التساقط يضمن عدم اعتماد الخلايا العصبية على خلايا عصبية أخرى معيّنة فقط.
الفلترة حسب الاهتمامات الجماعية
تقديم توقّعات بشأن اهتمامات مستخدم معيّن استنادًا إلى اهتمامات العديد من المستخدمين الآخرين يتم استخدام التصفية التعاونية غالبًا في أنظمة التوصية.
يمكنك الاطّلاع على الترشيح التعاوني في دورة "أنظمة الاقتراحات" للحصول على مزيد من المعلومات.
CommitmentBank (CB)
مجموعة بيانات لتقييم مدى إتقان نموذج لغوي كبير في تحديد ما إذا كان مؤلف مقطع نصي يعتقد بصحة عبارة مستهدَفة ضمن هذا المقطع. يحتوي كل إدخال في مجموعة البيانات على ما يلي:
- مقطع
- عبارة مستهدَفة ضمن هذه الفقرة
- قيمة منطقية تشير إلى ما إذا كان مؤلف المقطع يعتقد أنّ العبارة المستهدَفة
على سبيل المثال:
- المقطع: كم كان من الممتع سماع ضحكة أرتميس. إنّها طفلة جدّية للغاية. لم أكن أعرف أنّ لديها حس فكاهي.
- الجملة المستهدَفة: كانت تتمتّع بروح الدعابة
- قيمة منطقية: True، ما يعني أنّ المؤلف يعتقد أنّ الجملة المستهدَفة
CommitmentBank هو أحد مكوّنات مجموعة SuperGLUE.
طراز صغير الحجم
أي نموذج صغير مصمّم للعمل على أجهزة صغيرة ذات موارد حسابية محدودة على سبيل المثال، يمكن تشغيل النماذج المدمجة على الهواتف الجوّالة أو الأجهزة اللوحية أو الأنظمة المضمّنة.
الحوسبة
(اسم) الموارد الحاسوبية التي يستخدمها نموذج أو نظام، مثل قوة المعالجة والذاكرة والتخزين
اطّلِع على شرائح تسريع الأداء.
تغيُّر المفهوم
تغيير في العلاقة بين الميزات والتصنيف وبمرور الوقت، يؤدي تغيُّر المفهوم إلى خفض جودة النموذج.
أثناء التدريب، يتعرّف النموذج على العلاقة بين الميزات والتصنيفات في مجموعة التدريب. إذا كانت التصنيفات في مجموعة التدريب تمثّل العالم الحقيقي بشكل جيد، من المفترض أن يقدّم النموذج توقّعات جيدة في العالم الحقيقي. ومع ذلك، بسبب تغيُّر المفهوم، تميل توقّعات النموذج إلى التدهور بمرور الوقت.
على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتنبّأ بما إذا كان طراز سيارة معيّن "موفرًا للوقود" أم لا. أي أنّ الميزات يمكن أن تكون:
- وزن السيارة
- ضغط المحرّك
- نوع آليات نقل الطاقة
بينما يكون التصنيف إما:
- موفر للوقود
- غير فعّالة في استهلاك الوقود
ومع ذلك، فإنّ مفهوم "السيارة الموفّرة للوقود" يتغيّر باستمرار. فطراز السيارة الذي كان يُصنّف على أنّه موفر للوقود في عام 1994، سيُصنّف على الأرجح على أنّه غير موفر للوقود في عام 2024. النموذج الذي يعاني من تغيُّر المفهوم يميل إلى تقديم توقّعات أقل فائدة بمرور الوقت.
قارِن بينها وبين عدم الثبات.
الشرط
في شجرة القرارات، يشير ذلك المصطلح إلى أي عقدة تجري اختبارًا. على سبيل المثال، تحتوي شجرة القرارات التالية على شرطَين:
يُطلق على الشرط أيضًا اسم تقسيم أو اختبار.
حالة التباين مع ورقة الشجر
انظر أيضًا:
اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
التلفيق
مرادف لكلمة هلوسة
من المحتمل أنّ مصطلح "التلفيق" هو المصطلح الأكثر دقة من الناحية الفنية مقارنةً بمصطلح "الهلوسة". ومع ذلك، أصبحت الهلوسة شائعة أولاً.
الإعدادات
عملية تحديد قيم السمات الأولية المستخدَمة لتدريب نموذج، بما في ذلك:
- طبقات النموذج
- موقع البيانات
- المعلَمات الفائقة، مثل:
في مشاريع تعلُّم الآلة، يمكن إجراء عملية الإعداد من خلال ملف إعداد خاص أو باستخدام مكتبات الإعداد، مثل ما يلي:
الانحياز التأكيدي
الميل إلى البحث عن المعلومات وتفسيرها وتفضيلها وتذكّرها بطريقة تؤكد صحة المعتقدات أو الفرضيات الموجودة مسبقًا قد يجمع مطوّرو تعلُّم الآلة البيانات أو يصنّفونها عن غير قصد بطرق تؤثّر في نتيجة تدعم معتقداتهم الحالية. التحيز التأكيدي هو شكل من أشكال التحيز الضمني.
التحيز لدى المجرب هو شكل من أشكال التحيز التأكيدي، حيث يواصل المجرب تدريب النماذج إلى أن يتم تأكيد فرضية موجودة مسبقًا.
مصفوفة نجاح التوقعات
جدول NxN يلخّص عدد التوقّعات الصحيحة والخاطئة التي قدّمها نموذج التصنيف. على سبيل المثال، إليك مصفوفة الالتباس التالية الخاصة بنموذج التصنيف الثنائي:
| ورم (متوقّع) | غير ورم (متوقّع) | |
|---|---|---|
| ورم (معلومات فعلية) | 18 (TP) | 1 (FN) |
| غير ورمي (معلومات فعلية) | 6 (FP) | 452 (TN) |
تعرض مصفوفة الالتباس السابقة ما يلي:
- من بين 19 توقّعًا كانت فيها الحقيقة الأساسية هي "ورم"، صنّف النموذج 18 منها بشكل صحيح وصنّف 1 منها بشكل غير صحيح.
- من بين 458 توقّعًا كانت الحقيقة الأساسية فيها هي "غير ورمي"، صنّف النموذج 452 منها بشكل صحيح و6 منها بشكل غير صحيح.
يمكن أن تساعدك مصفوفة الالتباس في تصنيف متعدد الفئات في تحديد أنماط الأخطاء. على سبيل المثال، لنفترض مصفوفة الالتباس التالية لنموذج تصنيف متعدد الفئات يتضمّن 3 فئات ويصنّف ثلاثة أنواع مختلفة من زهور السوسن (Virginica وVersicolor وSetosa). عندما كانت الحقيقة الأساسية هي Virginica، توضّح مصفوفة الالتباس أنّ النموذج كان أكثر عرضة للتنبؤ بشكل خاطئ بأنّها Versicolor بدلاً من Setosa:
| Setosa (متوقّع) | Versicolor (متوقّعة) | Virginica (متوقّع) | |
|---|---|---|---|
| Setosa (المعلومات الفعلية) | 88 | 12 | 0 |
| Versicolor (المعلومات الفعلية) | 6 | 141 | 7 |
| Virginica (المعلومات الفعلية) | 2 | 27 | 109 |
كمثال آخر، يمكن أن تكشف مصفوفة الالتباس أنّ نموذجًا تم تدريبه على التعرّف على الأرقام المكتوبة بخط اليد يميل إلى توقّع الرقم 9 بدلاً من 4، أو توقّع الرقم 1 بدلاً من 7.
تحتوي مصفوفات الالتباس على معلومات كافية لحساب مجموعة متنوعة من مقاييس الأداء، بما في ذلك الدقة والاستدعاء.
تحليل الدوائر الانتخابية
تقسيم الجملة إلى بنى نحوية أصغر ("مكوّنات") يمكن لجزء لاحق من نظام تعلُّم الآلة، مثل نموذج فهم اللغات الطبيعية، تحليل المكوّنات بسهولة أكبر من الجملة الأصلية. على سبيل المثال، فكِّر في الجملة التالية:
تبنّى صديقي قطتين.
يمكن أن يقسّم محلّل البنية هذه الجملة إلى المكوّنين التاليين:
- صديقي هي عبارة اسمية.
- تبنّيتُ قطتَين هي عبارة فعلية.
ويمكن تقسيم هذه المكوّنات إلى مكوّنات أصغر. على سبيل المثال، عبارة الفعل
تبنّيتُ قطتين
يمكن تقسيمها إلى:
- adopted هي فعل.
- قطتان هي عبارة اسمية أخرى.
تضمين اللغة حسب السياق
تضمين يقترب من "فهم" الكلمات والعبارات بطرق يفهمها المتحدثون بطلاقة. يمكن أن تفهم عمليات التضمين المستندة إلى السياق التركيب النحوي والدلالات والسياق المعقّد.
على سبيل المثال، ضع في اعتبارك تضمينات الكلمة الإنجليزية cow. يمكن أن تمثّل عمليات التضمين القديمة، مثل word2vec، الكلمات الإنجليزية بطريقة تجعل المسافة في مساحة التضمين بين بقرة وثور مشابهة للمسافة بين نعجة (أنثى الخروف) وكبش (ذكر الخروف) أو بين أنثى وذكر. يمكن أن تتجاوز تضمينات اللغة المستندة إلى السياق ذلك من خلال إدراك أنّ المتحدثين باللغة الإنجليزية يستخدمون أحيانًا كلمة بقرة بشكل غير رسمي للإشارة إلى البقرة أو الثور.
قدرة الاستيعاب
عدد الرموز المميزة التي يمكن للنموذج معالجتها في طلب معيّن كلما كانت قدرة الاستيعاب أكبر، زادت المعلومات التي يمكن للنموذج استخدامها لتقديم ردود متسقة وذات صلة بالطلب.
خاصية مستمرة
ميزة ذات فاصلة عشرية عائمة مع نطاق لا نهائي من القيم المحتملة، مثل درجة الحرارة أو الوزن
يجب التمييز بينها وبين الخاصية المحدّدة القيم.
عينة عشوائية
استخدام مجموعة بيانات لم يتم جمعها بشكل علمي لإجراء تجارب سريعة في وقت لاحق، من الضروري التبديل إلى مجموعة بيانات تم جمعها بشكل علمي.
التقارب
هي الحالة التي يتم الوصول إليها عندما تتغير قيم الخسارة بشكل طفيف جدًا أو لا تتغير على الإطلاق مع كل تكرار. على سبيل المثال، يشير منحنى الخسارة التالي إلى التقارب عند حوالي 700 تكرار:
يتقارب النموذج عندما لا يؤدي التدريب الإضافي إلى تحسينه.
في التعلم العميق، تبقى قيم الخسارة ثابتة أحيانًا أو قريبة من ذلك في العديد من التكرارات قبل أن تنخفض أخيرًا. خلال فترة طويلة من قيم الخسارة الثابتة، قد تشعر مؤقتًا بأنّ هناك تقاربًا خاطئًا.
اطّلِع أيضًا على الإيقاف المبكر.
لمزيد من المعلومات، يُرجى الاطّلاع على تقارب النماذج ومنحنيات الخسارة في "دورة تدريبية مكثّفة حول تعلُّم الآلة".
البرمجة الحوارية
حوار متكرّر بينك وبين نموذج ذكاء اصطناعي توليدي بغرض إنشاء برامج تُصدر طلبًا يصف بعض البرامج. بعد ذلك، يستخدم النموذج هذا الوصف لإنشاء الرمز. بعد ذلك، تقدّم طلبًا جديدًا لمعالجة العيوب في الطلب السابق أو في الرمز البرمجي الذي تم إنشاؤه، وينشئ النموذج رمزًا برمجيًا معدَّلاً. ويستمرّان في تبادل الرسائل إلى أن يصبح البرنامج الذي تم إنشاؤه جيدًا بما يكفي.
البرمجة الوصفية هي في الأساس المعنى الأصلي للبرمجة الوصفية.
يختلف عن الترميز التحديدي.
دالّة محدّبة
الدالة التي تكون فيها المنطقة الواقعة فوق الرسم البياني للدالة مجموعة محدّبة تتخذ الدالة المحدبة النموذجية شكلًا يشبه الحرف U. على سبيل المثال، جميع الدوال التالية هي دوال محدّبة:
في المقابل، الدالة التالية ليست محدّبة. لاحظ كيف أنّ المنطقة أعلاه الرسم البياني ليست مجموعة محدّبة:
الدالة المحدّبة تمامًا لها نقطة حد أدنى محلّي واحدة فقط، وهي أيضًا نقطة الحد الأدنى العام. الدوال الكلاسيكية على شكل حرف U هي دوال محدّبة تمامًا. ومع ذلك، بعض الدوال المحدّبة (مثل الخطوط المستقيمة) ليست على شكل حرف U.
يمكنك الاطّلاع على التقارب والدوال المحدّبة في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
تحسين الدالّة المحدّبة
عملية استخدام تقنيات رياضية، مثل النزول التدريجي، للعثور على الحد الأدنى لدالة محدّبة تركّز الكثير من الأبحاث في مجال تعلّم الآلة على صياغة مشاكل مختلفة على أنّها مشاكل تحسين محدّبة وعلى حلّ هذه المشاكل بشكل أكثر فعالية.
للاطّلاع على التفاصيل الكاملة، يُرجى الرجوع إلى كتاب Boyd and Vandenberghe، Convex Optimization.
مجموعة محدّبة
مجموعة فرعية من الفضاء الإقليدي، بحيث يبقى الخط المرسوم بين أي نقطتين في المجموعة الفرعية ضمن المجموعة الفرعية تمامًا. على سبيل المثال، الشكلان التاليان هما مجموعتان محدّبتان:
في المقابل، الشكلان التاليان ليسا مجموعتَين محدّبتَين:
الالتفاف
في الرياضيات، وبشكل عام، هي مزيج من دالتين. في التعلّم الآلي، يجمع الالتفاف بين فلتر الالتفاف ومصفوفة الإدخال من أجل تدريب الأوزان.
في سياق تعلُّم الآلة، يشير مصطلح "الالتفاف" غالبًا إلى عملية الالتفاف أو طبقة الالتفاف.
بدون الالتفافات، يجب أن تتعلّم خوارزمية تعلُّم الآلة وزنًا منفصلاً لكل خلية في موتر كبير. على سبيل المثال، إذا تم تدريب خوارزمية تعلُّم آلي على صور بدقة 2000 × 2000، سيتم إجبارها على العثور على 4 ملايين وزن منفصل. بفضل الالتفافات، لا يحتاج خوارزمية تعلُّم الآلة سوى إلى العثور على أوزان لكل خلية في فلتر الالتفاف، ما يقلّل بشكل كبير من الذاكرة اللازمة لتدريب النموذج. عند تطبيق فلتر التفافي، يتم ببساطة تكراره على مستوى الخلايا بحيث يتم ضرب كل خلية في الفلتر.
فلتر التفافي
أحد العنصرَين في عملية التفاف (العنصر الآخر هو شريحة من مصفوفة إدخال). الفلتر الالتفافي هو مصفوفة لها الترتيب نفسه مثل مصفوفة الإدخال، ولكن بشكل أصغر. على سبيل المثال، عند توفّر مصفوفة إدخال 28x28، يمكن أن يكون الفلتر أي مصفوفة ثنائية الأبعاد أصغر من 28x28.
في معالجة الصور، يتم عادةً ضبط جميع الخلايا في فلتر التفاف على نمط ثابت من الآحاد والأصفار. في تعلُّم الآلة، يتم عادةً إدخال أرقام عشوائية إلى فلاتر الالتفاف، ثم تدريب الشبكة على القيم المثالية.
الطبقة الالتفافية
طبقة من شبكة عصبية عميقة يتم فيها تمرير فلتر التفافي على طول مصفوفة إدخال. على سبيل المثال، إليك فلتر التفاف بحجم 3x3:
تعرض الصورة المتحركة التالية طبقة التفافية تتألف من 9 عمليات التفافية تتضمّن مصفوفة الإدخال 5x5. لاحظ أنّ كل عملية التفاف تعمل على شريحة مختلفة من مصفوفة الإدخال بحجم 3×3. تتألف مصفوفة 3x3 الناتجة (على اليسار) من نتائج عمليات الالتفاف التسع:
شبكة عصبونية التفافية
شبكة عصبية تتضمّن طبقة واحدة على الأقل التفافية. تتألف الشبكة العصبية الالتفافية النموذجية من بعض المجموعات من الطبقات التالية:
حققت الشبكات العصبونية الالتفافية نجاحًا كبيرًا في أنواع معيّنة من المشاكل، مثل التعرّف على الصور.
عملية الالتفاف
العملية الرياضية التالية المكوَّنة من خطوتَين:
- الضرب حسب العناصر بين فلتر الالتفاف وشريحة من مصفوفة الإدخال (يحتوي جزء مصفوفة الإدخال على الترتيب والحجم نفسيهما كفلتر الالتفاف).
- مجموع كل القيم في مصفوفة المنتجات الناتجة
على سبيل المثال، ضع في اعتبارك مصفوفة الإدخال التالية بحجم 5x5:
لنفترض الآن فلتر التفافي 2x2 التالي:
تتضمّن كل عملية التفاف شريحة واحدة بحجم 2×2 من مصفوفة الإدخال. على سبيل المثال، لنفترض أنّنا نستخدم شريحة 2x2 في أعلى يسار مصفوفة الإدخال. وبالتالي، تبدو عملية الالتفاف على هذه الشريحة كما يلي:
تتألف الطبقة الالتفافية من سلسلة من العمليات الالتفافية، وتعمل كل عملية على شريحة مختلفة من مصفوفة الإدخال.
COPA
اختصار اختيار البدائل المعقولة
التكلفة
مرادف لكلمة خسارة
التدريب المشترك
أسلوب التعلّم شبه الموجّه مفيد بشكل خاص عندما تكون جميع الشروط التالية صحيحة:
- نسبة الأمثلة غير المصنَّفة إلى الأمثلة المصنَّفة في مجموعة البيانات مرتفعة.
- هذه مشكلة تصنيف (ثنائي أو متعدد الفئات).
- تحتوي مجموعة البيانات على مجموعتَين مختلفتَين من السمات التنبؤية المستقلة عن بعضها البعض والمتكاملة.
تعمل عملية التدريب المشترك بشكل أساسي على تضخيم الإشارات المستقلة وتحويلها إلى إشارة أقوى. على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف يصنّف السيارات المستعملة الفردية إلى جيدة أو سيئة. قد تركّز إحدى مجموعات الميزات التوقعية على الخصائص المجمّعة، مثل سنة تصنيع السيارة وعلامتها التجارية وطرازها، وقد تركّز مجموعة أخرى من الميزات التوقعية على سجل القيادة الخاص بالمالك السابق وسجل صيانة السيارة.
إنّ الورقة البحثية الأساسية حول التدريب المشترك هي Combining Labeled and Unlabeled Data with Co-Training من تأليف Blum وMitchell.
العدالة الشرطية
مقياس العدالة الذي يتحقّق مما إذا كان نموذج التصنيف يعطي النتيجة نفسها لشخص ما كما يعطيها لشخص آخر مطابق للأول، باستثناء ما يتعلق بواحدة أو أكثر من السمات الحسّاسة. يُعدّ تقييم نموذج التصنيف من حيث الإنصاف الواقعي الافتراضي إحدى الطرق للكشف عن المصادر المحتملة للانحياز في النموذج.
يمكنك الاطّلاع على أيّ مما يلي للحصول على مزيد من المعلومات:
- الإنصاف: الإنصاف الواقعي الافتراضي في "دورة مكثّفة عن تعلُّم الآلة"
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
انحياز في التغطية
اطّلِع على الانحياز في الاختيار.
عبارات مبهمة
جملة أو عبارة ذات معنى غامض تُشكّل أخطاء "الازدهار المفاجئ" مشكلة كبيرة في فهم اللغة الطبيعية. على سبيل المثال، العنوان Red Tape Holds Up Skyscraper هو مثال على crash blossom لأنّ نموذج فهم اللغة الطبيعية يمكن أن يفسّر العنوان حرفيًا أو مجازيًا.
ناقد
مرادف شبكة Q العميقة
الإنتروبيا المتقاطعة
تعميم فقدان اللوغاريتم على مشاكل التصنيف المتعدد الفئات يقيس الانتروبيا المتقاطعة الفرق بين توزيعَين احتماليَين. يمكنك الاطّلاع أيضًا على الارتباك.
التحقّق المتقاطع
آلية لتقدير مدى قدرة النموذج على التعميم على البيانات الجديدة من خلال اختبار النموذج على مجموعة فرعية واحدة أو أكثر من البيانات غير المتداخلة التي تم حجبها من مجموعة التدريب
دالة التوزيع التراكمي (CDF)
دالة تحدّد عدد المرّات التي تكون فيها العيّنات أقل من قيمة مستهدَفة أو مساوية لها. على سبيل المثال، لنفترض أنّ هناك توزيعًا طبيعيًا للقيم المستمرة. يخبرك التوزيع التراكمي بأنّ% 50 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي المتوسط، وأنّ% 84 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي الانحراف المعياري الواحد فوق المتوسط.
D
تحليل البيانات
فهم البيانات من خلال النظر في العيّنات والقياس والعرض المرئي يمكن أن يكون تحليل البيانات مفيدًا بشكل خاص عند تلقّي مجموعة بيانات لأول مرة، قبل إنشاء النموذج الأول. وهي ضرورية أيضًا لفهم التجارب وتصحيح الأخطاء في النظام.
توسيع نطاق البيانات
زيادة نطاق وعدد أمثلة التدريب بشكل مصطنع من خلال تحويل الأمثلة الحالية لإنشاء أمثلة إضافية على سبيل المثال، لنفترض أنّ الصور هي إحدى الميزات، ولكن مجموعة البيانات لا تحتوي على أمثلة كافية من الصور ليتعلّم النموذج الارتباطات المفيدة. من المفترض أن تضيف عددًا كافيًا من الصور المصنَّفة إلى مجموعة البيانات كي يتم تدريب النموذج بشكل صحيح. إذا لم يكن ذلك ممكنًا، يمكن أن تؤدي عملية زيادة البيانات إلى تدوير كل صورة وتمديدها وعكسها لإنتاج العديد من الصيغ من الصورة الأصلية، ما قد يؤدي إلى توفير بيانات مصنّفة كافية لإجراء تدريب ممتاز.
DataFrame
نوع بيانات pandas شائع لتمثيل مجموعات البيانات في الذاكرة
يشبه DataFrame الجدول أو جدول البيانات. يحتوي كل عمود في DataFrame على اسم (عنوان)، ويتم تحديد كل صف برقم فريد.
يتم تنظيم كل عمود في إطار البيانات على شكل مصفوفة ثنائية الأبعاد، إلا أنّه يمكن تعيين نوع بيانات خاص لكل عمود.
يمكنك أيضًا الاطّلاع على صفحة pandas.DataFrame المرجعية الرسمية.
التوازي على مستوى البيانات
طريقة لتوسيع نطاق التدريب أو الاستدلال عن طريق تكرار نموذج كامل على أجهزة متعددة، ثم تمرير مجموعة فرعية من البيانات المدخلة إلى كل جهاز. يمكن أن تتيح موازاة البيانات التدريب والاستدلال على أحجام دفعات كبيرة جدًا، ولكنها تتطلّب أن يكون النموذج صغيرًا بما يكفي ليتناسب مع جميع الأجهزة.
تؤدي موازاة البيانات عادةً إلى تسريع التدريب والاستنتاج.
يمكنك أيضًا الاطّلاع على التوازي بين النماذج.
Dataset API (tf.data)
واجهة برمجة تطبيقات TensorFlow عالية المستوى لقراءة البيانات وتحويلها إلى نموذج تتطلّبه خوارزمية تعلُّم الآلة
يمثّل كائن tf.data.Dataset تسلسلاً من العناصر، يحتوي كل عنصر فيه على Tensor واحد أو أكثر. يتيح عنصر tf.data.Iterator الوصول إلى عناصر Dataset.
مجموعة البيانات
مجموعة من البيانات الأولية، يتم تنظيمها عادةً (وليس حصريًا) بأحد التنسيقات التالية:
- جدول بيانات
- ملف بتنسيق CSV (قيم مفصولة بفواصل)
فاصل بين الفئات
وهي الفاصل بين الفئات التي تعلّمها نموذج في مشاكل التصنيف الثنائي أو مشاكل التصنيف المتعدّد الفئات. على سبيل المثال، في الصورة التالية التي تمثّل مشكلة تصنيف ثنائي، الحد الفاصل هو الحد بين الفئة البرتقالية والفئة الزرقاء:
غابة القرارات
نموذج تم إنشاؤه من عدة أشجار قرارات. تُجري غابة القرارات عملية توقّع من خلال تجميع التوقّعات التي تقدّمها أشجار القرارات. تشمل الأنواع الشائعة من غابات القرارات الغابات العشوائية وأشجار التدرّج المعزّز.
يمكنك الاطّلاع على قسم أشجار القرارات العشوائية في دورة "أشجار القرارات العشوائية" للحصول على مزيد من المعلومات.
حدّ اتّخاذ القرار
مرادف لعتبة التصنيف
شجرة القرارات
نموذج تعلّم بإشراف يتألف من مجموعة من الشروط والعُقد الطرفية منظَّمة بشكل هرمي. على سبيل المثال، ما يلي هو شجرة قرارات:
برنامج فك الترميز
بشكل عام، أي نظام تعلُّم آلي يحوّل من تمثيل معالَج أو كثيف أو داخلي إلى تمثيل أكثر أولية أو تفرّقًا أو خارجية.
غالبًا ما تكون أدوات فك الترميز جزءًا من نموذج أكبر، حيث يتم دمجها بشكل متكرر مع أداة ترميز.
في مهام التسلسل إلى التسلسل، يبدأ برنامج الترميز بالحالة الداخلية التي أنشأها برنامج الترميز ليتوقّع التسلسل التالي.
راجِع المحوّل للتعرّف على تعريف برنامج فك الترميز ضمن بنية المحوّل.
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة".
نموذج عميق
شبكة عصبية تحتوي على أكثر من طبقة مخفية
يُطلق على النموذج العميق أيضًا اسم شبكة عصبية عميقة.
يختلف عن النموذج الواسع.
شبكة عصبية عميقة
مرادف للنموذج العميق
شبكة Q العميقة (DQN)
في تعلُّم Q، يتم استخدام شبكة عصبية عميقة لتوقُّع دالات Q.
Critic هو مرادف لـ Deep Q-Network.
التكافؤ بين الجنسين
مقياس العدالة الذي يتم استيفاؤه إذا كانت نتائج تصنيف النموذج لا تعتمد على سمة حساسة معيّنة.
على سبيل المثال، إذا كان كل من سكان ليليبوت وبروبدينغناغ يتقدّمون بطلبات إلى جامعة غلوبدوبدريب، يتم تحقيق التكافؤ الديموغرافي إذا كانت النسبة المئوية للطلاب المقبولين من ليليبوت هي نفسها النسبة المئوية للطلاب المقبولين من بروبدينغناغ، بغض النظر عمّا إذا كانت إحدى المجموعتين أكثر تأهيلاً من الأخرى في المتوسط.
يختلف هذا المقياس عن التكافؤ في الاحتمالات وتكافؤ الفرص، اللذين يسمحان بأن تعتمد نتائج التصنيف بشكل إجمالي على السمات الحسّاسة، ولكنّهما لا يسمحان بأن تعتمد نتائج التصنيف لبعض تصنيفات الحقيقة الأساسية المحدّدة على السمات الحسّاسة. يمكنك الاطّلاع على "مكافحة التمييز من خلال تعلُّم الآلة بشكل أكثر ذكاءً" للاطّلاع على رسم بياني يوضّح المفاضلة بين الخيارات عند تحسين التكافؤ الديمغرافي.
يمكنك الاطّلاع على الإنصاف: التكافؤ الديمغرافي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
إزالة التشويش
أسلوب شائع في التعلّم الذاتي يتم فيه:
تتيح إزالة التشويش التعلّم من أمثلة غير مصنَّفة. تعمل مجموعة البيانات الأصلية كهدف أو تصنيف، وتعمل البيانات المشوّشة كمدخل.
تستخدم بعض نماذج اللغة المقنّعة أسلوب إزالة التشويش على النحو التالي:
- تتم إضافة تشويش بشكل اصطناعي إلى جملة غير مصنّفة من خلال إخفاء بعض الرموز المميزة.
- يحاول النموذج توقّع الرموز المميزة الأصلية.
خاصية كثيفة
ميزة تكون معظم قيمها أو كلها غير صفرية، وعادةً ما تكون Tensor من قيم الفاصلة العائمة. على سبيل المثال، يكون Tensor التالي المكوّن من 10 عناصر كثيفًا لأنّ 9 من قيمه غير صفرية:
| 8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
يختلف عن الخاصية المتناثرة.
طبقة كثيفة
مرادف طبقة مكتملة الاتصال
العمق
مجموع ما يلي في شبكة عصبونية:
- عدد الطبقات المخفية
- عدد الطبقات النهائية، وهو عادةً 1
- عدد أي طبقات تضمين
على سبيل المثال، تحتوي الشبكة العصبية التي تتضمّن خمس طبقات مخفية وطبقة إخراج واحدة على عمق يبلغ 6.
يُرجى العِلم أنّ طبقة الإدخال لا تؤثر في العمق.
شبكة عصبونية التفافية قابلة للفصل حسب العمق (sepCNN)
بنية شبكة عصبية التفافية تستند إلى Inception، ولكن يتم فيها استبدال وحدات Inception بعمليات التفاف منفصلة حسب العمق. يُعرف أيضًا باسم Xception.
تُقسّم عملية الالتفاف المنفصلة حسب العمق (المعروفة أيضًا باسم الالتفاف المنفصل) عملية الالتفاف الثلاثية الأبعاد العادية إلى عمليتَي التفاف منفصلتَين أكثر فعالية من الناحية الحسابية: أولاً، عملية التفاف حسب العمق بعمق 1 (n ✕ n ✕ 1)، ثم عملية التفاف نقطية بطول وعرض 1 (1 ✕ 1 ✕ n).
لمزيد من المعلومات، يُرجى الاطّلاع على Xception: Deep Learning with Depthwise Separable Convolutions.
تصنيف مشتق
مرادف للتصنيف التقريبي
جهاز
مصطلح محمل بشكل زائد مع تعريفَين محتملَين:
- فئة من الأجهزة التي يمكنها تشغيل جلسة TensorFlow، بما في ذلك وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) ووحدات معالجة الموتّرات (TPU)
- عند تدريب نموذج تعلُّم آلي على شرائح تسريع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، يكون هذا الجزء من النظام هو المسؤول عن معالجة الموتّرات وعمليات التضمين. يعمل الجهاز باستخدام شرائح تسريع. في المقابل، يعمل المضيف عادةً على وحدة معالجة مركزية.
الخصوصية التفاضلية
في تعلُّم الآلة، يشير هذا المصطلح إلى أسلوب لإخفاء الهوية بهدف حماية أي بيانات حساسة (مثل المعلومات الشخصية لأحد الأفراد) مضمّنة في مجموعة التدريب الخاصة بأحد النماذج من التعرّض. يضمن هذا النهج ألا يتعلّم النموذج أو يتذكّر الكثير من المعلومات حول فرد معيّن. ويتم ذلك من خلال أخذ عيّنات وإضافة تشويش أثناء تدريب النموذج لإخفاء نقاط البيانات الفردية، ما يقلّل من خطر الكشف عن بيانات التدريب الحسّاسة.
يتم استخدام الخصوصية التفاضلية أيضًا خارج نطاق تعلُّم الآلة. على سبيل المثال، يستخدم علماء البيانات أحيانًا الخصوصية التفاضلية لحماية خصوصية الأفراد عند احتساب إحصاءات استخدام المنتج لمختلف الخصائص الديمغرافية.
تخفيض عدد السمات
تقليل عدد السمات المستخدَمة لتمثيل ميزة معيّنة في متّجه الميزات، عادةً من خلال التحويل إلى متّجه تضمين
الأبعاد
مصطلح محمل بشكل زائد يتضمّن أيًا من التعريفات التالية:
عدد مستويات الإحداثيات في Tensor على سبيل المثال:
- المقياس العددي له صفر من الأبعاد، على سبيل المثال،
["Hello"]. - يتضمّن المتّجه سمة واحدة، مثل
[3, 5, 7, 11]. - تحتوي المصفوفة على بُعدَين، مثل
[[2, 4, 18], [5, 7, 14]]. يمكنك تحديد خلية معيّنة بشكل فريد في متّجه أحادي البُعد باستخدام إحداثي واحد، ولكنك تحتاج إلى إحداثيَين لتحديد خلية معيّنة بشكل فريد في مصفوفة ثنائية الأبعاد.
- المقياس العددي له صفر من الأبعاد، على سبيل المثال،
عدد الإدخالات في متّجه الميزات
عدد العناصر في طبقة التضمين
توجيه الطلبات مباشرةً
مرادف للتلقين بلا أمثلة
خاصية محدّدة القيم
الميزة التي تتضمّن مجموعة محدودة من القيم المحتملة على سبيل المثال، السمة التي لا يمكن أن تتضمّن قيمًا سوى حيوان أو نبات أو معدن هي سمة منفصلة (أو فئوية).
يختلف عن الخاصية المستمرة.
النموذج التمييزي
نموذج يتوقّع تصنيفات من مجموعة تتضمّن ميزة واحدة أو أكثر. بشكل أكثر رسمية، تحدّد النماذج التمييزية الاحتمالية الشرطية للناتج بالنظر إلى الميزات والأوزان، أي:
p(output | features, weights)
على سبيل المثال، النموذج الذي يتنبأ بما إذا كانت الرسالة الإلكترونية غير مرغوب فيها من الميزات والأوزان هو نموذج تمييزي.
إنّ الغالبية العظمى من نماذج التعلّم الخاضع للإشراف، بما في ذلك نماذج التصنيف والانحدار، هي نماذج تمييزية.
يُرجى الرجوع إلى النموذج التوليدي.
المُميِّز
نظام يحدّد ما إذا كانت الأمثلة حقيقية أو مزيفة.
أو، هي النظام الفرعي ضمن شبكة معادية توليدية يحدّد ما إذا كانت الأمثلة التي أنشأها المولّد حقيقية أو مزيفة.
راجِع المميّز في دورة GAN التدريبية للحصول على مزيد من المعلومات.
التأثير غير المتكافئ
اتّخاذ قرارات بشأن أشخاص تؤثّر بشكل غير متناسب في مجموعات فرعية مختلفة من السكان ويشير ذلك عادةً إلى الحالات التي تؤدي فيها عملية اتخاذ القرارات المستندة إلى الخوارزميات إلى إلحاق الضرر ببعض المجموعات الفرعية أو تحقيق فائدة لها أكثر من غيرها.
على سبيل المثال، لنفترض أنّ خوارزمية تحدّد أهلية شخص من ليليبوت للحصول على قرض لشراء منزل صغير، ومن المرجّح أن تصنّفه على أنّه "غير مؤهّل" إذا كان عنوانه البريدي يتضمّن رمزًا بريديًا معيّنًا. إذا كان من المرجّح أن يكون لدى سكان ليليبوت الذين يستخدمون تنسيق Big-Endian عناوين بريدية تتضمّن هذا الرمز البريدي أكثر من سكان ليليبوت الذين يستخدمون تنسيق Little-Endian، قد تؤدي هذه الخوارزمية إلى تأثير متفاوت.
يختلف ذلك عن المعاملة غير المتكافئة، التي تركّز على التفاوتات الناتجة عندما تكون خصائص المجموعة الفرعية مدخلات صريحة في عملية اتخاذ القرار المستندة إلى الخوارزميات.
المعاملة غير المتكافئة
إدخال السمات الحسّاسة الخاصة بالأشخاص في عملية اتخاذ القرار المستندة إلى الخوارزميات، ما يؤدي إلى معاملة المجموعات الفرعية المختلفة من الأشخاص بشكل مختلف
على سبيل المثال، لنفترض أنّ هناك خوارزمية تحدّد أهلية سكان ليليبوت للحصول على قرض لشراء منزل صغير استنادًا إلى البيانات التي يقدّمونها في طلب القرض. إذا كانت الخوارزمية تستخدم انتماء شخص من ليليبوت إلى Big-Endian أو Little-Endian كمدخل، فإنّها تمارس معاملة مختلفة على هذا الأساس.
يختلف ذلك عن التأثير غير المتكافئ الذي يركّز على التفاوتات في التأثيرات المجتمعية للقرارات الخوارزمية على المجموعات الفرعية، بغض النظر عمّا إذا كانت هذه المجموعات الفرعية مدخلات للنموذج.
التقطير
عملية تقليل حجم نموذج واحد (يُعرف باسم النموذج الأساسي) إلى نموذج أصغر (يُعرف باسم النموذج الثانوي) يحاكي توقّعات النموذج الأصلي بأكبر قدر ممكن من الدقة التقطير مفيد لأنّ النموذج الأصغر حجمًا يتضمّن ميزتَين رئيسيتَين مقارنةً بالنموذج الأكبر حجمًا (المعلّم):
- وقت استنتاج أسرع
- تقليل استخدام الذاكرة والطاقة
ومع ذلك، لا تكون توقعات الطالب جيدة عادةً مثل توقعات المعلّم.
تدرّب عملية التقطير نموذج الطالب على تقليل دالة الخسارة استنادًا إلى الفرق بين نواتج التوقعات التي يقدّمها نموذج الطالب ونموذج المعلّم.
قارِن بين التقطير والمصطلحات التالية:
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة: الضبط الدقيق والتقطير وهندسة الطلبات في "دورة مكثّفة عن تعلّم الآلة".
distribution
تمثّل هذه السمة عدد المرات التي تظهر فيها القيم المختلفة للميزة أو التصنيف ونطاقها. يعرض التوزيع مدى احتمالية ظهور قيمة معيّنة.
تعرض الصورة التالية المدرّجات التكرارية لتوزيعَين مختلفَين:
- على اليمين، يظهر توزيع قانون القوة للثروة مقابل عدد الأشخاص الذين يملكون هذه الثروة.
- على اليسار، يظهر التوزيع الطبيعي للطول مقابل عدد الأشخاص الذين يبلغ طولهم هذا المقدار.
يمكن أن يساعدك فهم توزيع كل ميزة وتصنيف في تحديد كيفية تسوية القيم ورصد القيم الشاذة.
تشير عبارة خارج التوزيع إلى قيمة لا تظهر في مجموعة البيانات أو تظهر بشكل نادر جدًا. على سبيل المثال، ستُصنّف صورة لكوكب زحل على أنّها خارج نطاق التوزيع لمجموعة بيانات تتضمّن صورًا للقطط.
التجميع التقسيمي
اطّلِع على التجميع الهرمي.
تصغير نطاق العيّنات
مصطلح عام يمكن أن يعني أحد ما يلي:
- تقليل كمية المعلومات في ميزة بهدف تدريب نموذج بشكل أكثر فعالية على سبيل المثال، قبل تدريب نموذج للتعرّف على الصور، يتم تقليل دقة الصور العالية الدقة إلى تنسيق أقل دقة.
- التدريب على نسبة منخفضة بشكل غير متناسب من أمثلة الفئة الممثَّلة بشكل مفرط بهدف تحسين تدريب النموذج على الفئات الممثَّلة بشكل ناقص على سبيل المثال، في مجموعة بيانات غير متوازنة الفئات، تميل النماذج إلى التعرّف على الكثير من المعلومات حول الفئة الأكبر، ولكن ليس بالقدر الكافي حول الفئة الأصغر. يساعد تقليل معدّل أخذ العيّنات في تحقيق التوازن بين مقدار التدريب على الفئات الأغلبية والأقلية.
لمزيد من المعلومات، راجِع مجموعات البيانات: مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة".
DQN
اختصار شبكة Q العميقة
تسوية الإسقاط
هو شكل من أشكال التسوية المفيد في تدريب الشبكات العصبونية. تزيل عملية التسوية باستخدام Dropout مجموعة عشوائية من عدد ثابت من الوحدات في إحدى طبقات الشبكة خلال خطوة واحدة من التدرّج. وكلما زاد عدد الوحدات التي تم تجاهلها، زادت قوة التسوية. وهذا يشبه تدريب الشبكة على محاكاة مجموعة كبيرة بشكل كبير من الشبكات الأصغر. للاطّلاع على التفاصيل الكاملة، يُرجى الرجوع إلى Dropout: A Simple Way to Prevent Neural Networks from Overfitting.
ديناميكي
شيء يتم بشكل متكرر أو مستمر المصطلحان ديناميكي وعلى الإنترنت مترادفان في تعلُّم الآلة. في ما يلي الاستخدامات الشائعة للديناميكية والإنترنت في تعلّم الآلة:
- النموذج الديناميكي (أو النموذج المباشر) هو نموذج تتم إعادة تدريبه بشكل متكرر أو مستمر.
- التدريب الديناميكي (أو التدريب على الإنترنت) هو عملية التدريب بشكل متكرر أو مستمر.
- الاستنتاج الديناميكي (أو الاستنتاج المباشر) هو عملية إنشاء توقعات عند الطلب.
نموذج ديناميكي
نموذج يتم إعادة تدريبه بشكل متكرر (ربما بشكل مستمر). النموذج الديناميكي هو "متعلّم مدى الحياة" يتكيّف باستمرار مع البيانات المتطورة. يُعرف النموذج الديناميكي أيضًا باسم النموذج المباشر.
يجب التمييز بينه وبين النموذج الثابت.
E
التنفيذ الفوري
بيئة برمجة في TensorFlow يتم فيها تنفيذ العمليات على الفور. في المقابل، لا يتم تنفيذ العمليات التي يتم استدعاؤها في تنفيذ الرسم البياني إلا بعد تقييمها بشكل صريح. التنفيذ الفوري هو واجهة أمرية، تشبه إلى حد كبير الرموز البرمجية في معظم لغات البرمجة. تكون برامج التنفيذ الحريص أسهل بكثير في تصحيح الأخطاء من برامج التنفيذ البياني.
الإيقاف المبكر
طريقة التسوية التي تتضمّن إنهاء التدريب قبل أن يتوقف معدّل انخفاض خسارة التدريب. في عملية الإيقاف المبكر، يتم إيقاف تدريب النموذج عمدًا عندما يبدأ معدل الخطأ في مجموعة بيانات التحقّق من الصحة في الارتفاع، أي عندما يتدهور أداء التعميم.
يختلف ذلك عن الخروج المبكر.
مسافة نقل التراب (EMD)
مقياس للتشابه النسبي بين توزيعَين كلّما كانت مسافة نقل التراب أقل، تشابهت التوزيعات أكثر.
مسافة التعديل
مقياس لمدى تشابه سلسلتَي نص مع بعضهما البعض. في مجال تعلُّم الآلة، تكون مسافة التعديل مفيدة للأسباب التالية:
- يسهل احتساب مسافة التعديل.
- يمكن أن تقارن مسافة التعديل بين سلسلتَين معروفتَين بأنّهما متشابهتان.
- يمكن أن تحدّد مسافة التعديل درجة تشابه السلاسل المختلفة مع سلسلة معيّنة.
تتوفّر عدة تعريفات لمسافة التعديل، ويستخدم كل منها عمليات مختلفة على السلاسل. يمكنك الاطّلاع على مسافة ليفنشتاين للحصول على مثال.
Einsum notation
تمثّل هذه السلسلة طريقة فعّالة لوصف كيفية دمج موترَين. يتم دمج الموترات عن طريق ضرب عناصر أحد الموترات في عناصر الموتر الآخر ثم جمع النواتج. تستخدم طريقة كتابة Einsum رموزًا لتحديد محاور كل موتر، ويتم إعادة ترتيب هذه الرموز نفسها لتحديد شكل الموتر الناتج الجديد.
توفّر حزمة NumPy عملية تنفيذ شائعة للدالة Einsum.
طبقة التضمين
طبقة مخفية خاصة يتم تدريبها على سمة فئوية ذات أبعاد عالية، وذلك بهدف التعلّم تدريجيًا لمتجه تضمين ذي أبعاد أقل. تتيح طبقة التضمين للشبكة العصبية التدريب بكفاءة أكبر بكثير من التدريب على الميزة الفئوية العالية الأبعاد فقط.
على سبيل المثال، يتيح Earth حاليًا حوالي 73,000 نوع من الأشجار. لنفترض أنّ نوع الشجرة هو سمة في نموذجك، وبالتالي تتضمّن طبقة الإدخال في نموذجك متجهًا ذا ترميز ساخن بطول 73,000 عنصر.
على سبيل المثال، قد يتم تمثيل baobab على النحو التالي:
إنّ مصفوفة تضم 73,000 عنصر طويلة جدًا. إذا لم تضِف طبقة تضمين إلى النموذج، سيستغرق التدريب وقتًا طويلاً جدًا بسبب ضرب 72,999 صفرًا. لنفترض أنّك اخترت أن تتألف طبقة التضمين من 12 سمة. وبالتالي، ستتعلّم طبقة التضمين تدريجيًا متجه تضمين جديدًا لكل نوع من أنواع الأشجار.
في بعض الحالات، يكون التجزئة بديلاً مناسبًا لطبقة التضمين.
يمكنك الاطّلاع على التضمينات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مساحة التضمين
مساحة المتجهات ذات الأبعاد d التي يتم ربط الميزات من مساحة المتجهات ذات الأبعاد الأعلى بها يتم تدريب مساحة التضمين لالتقاط البنية ذات الصلة بالتطبيق المقصود.
الضرب النقطي بين تضمينَين هو مقياس لتشابههما.
متّجه التضمين
بشكل عام، هي مجموعة من الأرقام العشرية المأخوذة من أي طبقة مخفية تصف المدخلات إلى تلك الطبقة المخفية. في كثير من الأحيان، يكون متّجه التضمين عبارة عن مصفوفة من الأرقام النقطية العائمة التي تم تدريبها في طبقة تضمين. على سبيل المثال، لنفترض أنّ طبقة تضمين يجب أن تتعرّف على متجه تضمين لكل نوع من أنواع الأشجار البالغ عددها 73,000 نوع على الأرض. ربما تكون المصفوفة التالية هي متّجه التضمين لشجرة الباوباب:
متجه التضمين ليس مجموعة من الأرقام العشوائية. تحدّد طبقة التضمين هذه القيم من خلال التدريب، بطريقة مشابهة للطريقة التي تتعلّم بها الشبكة العصبية الأوزان الأخرى أثناء التدريب. كل عنصر من عناصر المصفوفة هو تقييم لبعض خصائص أنواع الأشجار. أي عنصر يمثّل سمة أي نوع من الأشجار؟ ويصعب على البشر تحديد ذلك.
الجزء المميّز رياضيًا في متّجه التضمين هو أنّ العناصر المتشابهة تتضمّن مجموعات متشابهة من الأرقام النقطية العائمة. على سبيل المثال، تتضمّن أنواع الأشجار المتشابهة مجموعة أكثر تشابهًا من الأرقام العشرية مقارنةً بأنواع الأشجار غير المتشابهة. أشجار الخشب الأحمر وأشجار السكويا هي أنواع أشجار مرتبطة ببعضها، لذا سيكون لديها مجموعة أكثر تشابهًا من الأرقام ذات الفاصلة العائمة مقارنةً بأشجار الخشب الأحمر وأشجار جوز الهند. ستتغيّر الأرقام في متجه التضمين في كل مرة تعيد فيها تدريب النموذج، حتى إذا أعدت تدريبه باستخدام الإدخال نفسه.
دالة التوزيع التراكمي التجريبية (eCDF أو EDF)
دالة التوزيع التراكمي استنادًا إلى القياسات التجريبية من مجموعة بيانات حقيقية قيمة الدالة عند أي نقطة على طول المحور س هي جزء الملاحظات في مجموعة البيانات التي تكون أقل من أو تساوي القيمة المحددة.
تقليص المخاطر التجريبية (ERM)
اختيار الدالة التي تقلّل الخسارة إلى الحدّ الأدنى في مجموعة التدريب يختلف ذلك عن تقليص المخاطر البنيوية.
برنامج تشفير
بشكل عام، أي نظام تعلّم آلي يحوّل البيانات من تمثيل أولي أو متفرّق أو خارجي إلى تمثيل أكثر معالجة أو كثافة أو داخلية.
غالبًا ما تكون أجهزة الترميز جزءًا من نموذج أكبر، حيث يتم دمجها بشكل متكرر مع جهاز فك ترميز. تجمع بعض أدوات التحويل بين برامج الترميز وبرامج فك الترميز، بينما تستخدم أدوات التحويل الأخرى برنامج الترميز فقط أو برنامج فك الترميز فقط.
تستخدم بعض الأنظمة ناتج أداة الترميز كمدخل إلى شبكة تصنيف أو انحدار.
في مهام التسلسل إلى التسلسل، يأخذ برنامج الترميز تسلسلاً من الإدخالات ويعرض حالة داخلية (متجه). بعد ذلك، يستخدم برنامج الترميز هذه الحالة الداخلية للتنبؤ بالتسلسل التالي.
راجِع المحوّل للتعرّف على تعريف برنامج الترميز في بنية المحوّل.
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلُّم الآلة".
نقاط النهاية
موقع جغرافي يمكن الوصول إليه عبر الشبكة (عادةً ما يكون عنوان URL) حيث يمكن الوصول إلى الخدمة
مجموعة موحدة
مجموعة من النماذج المدرَّبة بشكل مستقل والتي يتم حساب متوسط توقعاتها أو تجميعها. في كثير من الحالات، ينتج عن المجموعة توقعات أفضل من النموذج الفردي. على سبيل المثال، الغابة العشوائية هي مجموعة نماذج تم إنشاؤها من عدة أشجار قرارات. يُرجى العِلم أنّ بعض غابات القرارات ليست مجموعات.
لمزيد من المعلومات، يمكنك الاطّلاع على الغابة العشوائية في "دورة مكثّفة عن تعلّم الآلة".
الإنتروبيا
في نظرية المعلومات، هو وصف لمدى عدم القدرة على التنبؤ بتوزيع الاحتمالات. ويمكن أيضًا تعريف القصور على أنّه مقدار المعلومات التي يحتوي عليها كل مثال. يكون التوزيع ذا أعلى إنتروبيا ممكنة عندما تكون جميع قيم المتغيّر العشوائي متساوية الاحتمالية.
إنّ إنتروبيا مجموعة تتضمّن قيمتَين محتملتَين هما "0" و "1" (على سبيل المثال، التصنيفات في مسألة تصنيف ثنائي) لها الصيغة التالية:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
where:
- H هي القصور.
- p هي نسبة الأمثلة التي تكون فيها القيمة "1".
- q هو نسبة الأمثلة التي تكون فيها القيمة "0". يُرجى العِلم أنّ q = (1 - p)
- log هو بشكل عام log2. في هذه الحالة، وحدة الإنتروبيا هي بت.
على سبيل المثال، لنفترض ما يلي:
- تحتوي 100 عينة على القيمة "1"
- تحتوي 300 عينة على القيمة "0"
وبالتالي، تكون قيمة القصور كما يلي:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits per example
ستكون قيمة الإنتروبيا لمجموعة متوازنة تمامًا (على سبيل المثال، 200 من القيمة "0" و200 من القيمة "1") هي 1.0 بت لكل مثال. كلما أصبحت المجموعة أكثر عدم توازن، اقترب القصور فيها من 0.0.
في أشجار القرارات، يساعد الانتروبيا في صياغة تحصيل المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرارات التصنيف.
مقارنة الإنتروبيا مع:
- مقياس جيني للتفاوت
- دالة الخسارة الإنتروبيا المتداخلة
يُطلق على القصور غالبًا اسم قصور شانون.
لمزيد من المعلومات، راجِع Exact splitter for binary classification with numerical features في دورة "أشجار القرار".
بيئة
في التعلّم المعزّز، يشير مصطلح "البيئة" إلى العالم الذي يحتوي على الوكيل ويسمح له بمراقبة حالته. على سبيل المثال، يمكن أن يكون العالم الممثَّل لعبة مثل الشطرنج أو عالمًا ماديًا مثل المتاهة. عندما ينفّذ الوكيل إجراءً على البيئة، تنتقل البيئة بين الحالات.
حلقة
في التعلّم المعزّز، كل محاولة متكررة يقوم بها الوكيل لتعلّم بيئة.
حقبة
هي عملية تدريب كاملة على مجموعة التدريب بحيث تتم معالجة كل مثال مرة واحدة.
تمثّل الحقبة N/حجم الدفعة
تكرارات التدريب، حيث N هو
إجمالي عدد الأمثلة.
على سبيل المثال، لنفترض ما يلي:
- تتألف مجموعة البيانات من 1,000 مثال.
- يبلغ حجم الدفعة 50 مثالاً.
لذلك، تتطلّب الحقبة الواحدة 20 تكرارًا:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
سياسة إبسيلون الجشعة
في التعلّم المعزّز، السياسة التي تتّبع إما سياسة عشوائية باحتمالية إبسيلون أو سياسة جشعة في الحالات الأخرى. على سبيل المثال، إذا كانت قيمة إبسيلون 0.9، ستتّبع السياسة سياسة عشوائية بنسبة% 90 من الوقت وسياسة جشعة بنسبة% 10 من الوقت.
على مدار حلقات متتالية، تقلّل الخوارزمية قيمة إبسيلون من أجل الانتقال من اتّباع سياسة عشوائية إلى اتّباع سياسة جشعة. من خلال تغيير السياسة، يستكشف الوكيل البيئة أولاً بشكل عشوائي ثم يستغل بشكل جشع نتائج الاستكشاف العشوائي.
تكافؤ الفرص
مقياس الإنصاف لتقييم ما إذا كان النموذج يتوقّع النتيجة المطلوبة بشكل جيد وبالمقدار نفسه لجميع قيم السمة الحسّاسة بعبارة أخرى، إذا كانت النتيجة المرغوبة لنموذج هي الفئة الإيجابية، سيكون الهدف هو أن يكون معدّل الإيجابية الحقيقية هو نفسه لجميع المجموعات.
يرتبط تكافؤ الفرص بتكافؤ الاحتمالات، الذي يتطلّب أن يكون كلّ من معدلات الموجب الصائب ومعدلات الموجب الخاطئ متطابقًا لجميع المجموعات.
لنفترض أنّ جامعة Glubbdubdrib تقبل طلابًا من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبوت منهجًا دراسيًا قويًا في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدنجناغ أي دروس في الرياضيات، ونتيجة لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص للتصنيف المفضّل "مقبول" فيما يتعلق بالجنسية (ليليبوتية أو بروبدنجناغية) إذا كان من المرجّح أن يتم قبول الطلاب المؤهّلين بالتساوي بغض النظر عما إذا كانوا ليليبوتايين أو بروبدنجناغيين.
على سبيل المثال، لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات التحاق بجامعة غلوبدبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 1. مقدّمو الطلبات من البلدان الصغيرة (90% منهم مؤهَّلون)
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 45 | 3 |
| تم الرفض | 45 | 7 |
| المجموع | 90 | 10 |
|
النسبة المئوية للطلاب المؤهّلين المقبولين: 45/90 =%50 النسبة المئوية للطلاب غير المؤهّلين المرفوضين: 7/10 =%70 النسبة المئوية الإجمالية للطلاب المقبولين من Lilliputian: (45+3)/100 = %48 |
||
الجدول 2. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 5 | 9 |
| تم الرفض | 5 | 81 |
| المجموع | 10 | 90 |
|
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 81/90 =%90 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+9)/100 = %14 |
||
تستوفي الأمثلة السابقة شرط تكافؤ الفرص لقبول الطلاب المؤهّلين لأنّ كلّاً من سكان ليليبوت وبروبدينغناغ المؤهّلين لديهم فرصة بنسبة% 50 للقبول.
على الرغم من استيفاء شرط تكافؤ الفرص، لا يتم استيفاء مقياسَي العدالة التاليَين:
- التكافؤ الديمغرافي: يتم قبول سكان ليليبوت وبروبدينغناغ في الجامعة بمعدلات مختلفة، إذ يتم قبول% 48 من الطلاب من ليليبوت، ولكن يتم قبول% 14 فقط من الطلاب من بروبدينغناغ.
- تكافؤ الفرص: على الرغم من أنّ الطلاب المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للقبول، لا يتم استيفاء الشرط الإضافي الذي ينص على أنّ الطلاب غير المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للرفض. يبلغ معدّل الرفض لدى Lilliputians غير المؤهّلين% 70، بينما يبلغ معدّل الرفض لدى Brobdingnagians غير المؤهّلين% 90.
يمكنك الاطّلاع على الإنصاف: تكافؤ الفرص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
الاحتمالات المتساوية
مقياس عدالة لتقييم ما إذا كان النموذج يتنبأ بالنتائج بشكل جيد وبالمقدار نفسه لجميع قيم السمة الحسّاسة فيما يتعلق بكل من الفئة الإيجابية والفئة السلبية، وليس فئة واحدة أو الأخرى حصريًا. بمعنى آخر، يجب أن يكون كل من معدّل الموجب الصائب ومعدّل السالب الخاطئ متساويَين بالنسبة إلى جميع المجموعات.
يرتبط تكافؤ الفرص بتكافؤ الفرص، الذي يركّز فقط على معدّلات الخطأ لفئة واحدة (موجبة أو سالبة).
على سبيل المثال، لنفترض أنّ جامعة Glubbdubdrib تقبل الطلاب من Lilliputians وBrobdingnagians في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبوت منهجًا دراسيًا قويًا في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدنجناج أي دروس في الرياضيات، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص إذا كان احتمال قبول المتقدّم للبرنامج أو رفضه متساويًا بغض النظر عن حجمه، وذلك إذا كان مؤهلاً أو غير مؤهل.
لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات إلى جامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:
الجدول 3. مقدّمو الطلبات من البلدان الصغيرة (90% منهم مؤهَّلون)
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 45 | 2 |
| تم الرفض | 45 | 8 |
| المجموع | 90 | 10 |
|
نسبة الطلاب المؤهّلين المقبولين: 45/90 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 8/10 =%80 النسبة الإجمالية للطلاب المقبولين من Lilliputian: (45+2)/100 = %47 |
||
الجدول 4. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):
| مؤهَّل | غير معرَّف | |
|---|---|---|
| تم قبول الطلب | 5 | 18 |
| تم الرفض | 5 | 72 |
| المجموع | 10 | 90 |
|
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 72/90 =%80 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+18)/100 = %23 |
||
يتم استيفاء شرط تكافؤ الفرص لأنّ الطلاب المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية بنسبة% 50 للقبول، بينما تبلغ نسبة رفض الطلاب غير المؤهّلين من ليليبوت وبروبدينغناغ% 80.
يتم قبول الطلاب من ليليبوت وبروبدينغناغ في جامعة غلوبدوبدريب بنسب مختلفة، حيث يتم قبول% 47 من الطلاب من ليليبوت و% 23 من الطلاب من بروبدينغناغ.يتم تعريف تكافؤ الفرص رسميًا في "تكافؤ الفرص في التعلّم الخاضع للإشراف" على النحو التالي: "يتوافق المتنبئ Ŷ مع تكافؤ الفرص فيما يتعلق بالسمة المحمية A والنتيجة Y إذا كان Ŷ وA مستقلين، بشرط Y".
أداة التقدير
واجهة برمجة تطبيقات TensorFlow متوقّفة نهائيًا استخدِم tf.keras بدلاً من Estimators.
evals
تُستخدَم في المقام الأول كاختصار لتقييمات النماذج اللغوية الكبيرة. بشكل عام، التقييمات هي اختصار لأي شكل من أشكال التقييم.
التقييم
تشير هذه العملية إلى قياس جودة نموذج أو مقارنة نماذج مختلفة ببعضها.
لتقييم نموذج تعلُّم الآلة المُوجّه، يتم عادةً مقارنته بمجموعة التحقّق ومجموعة الاختبار. يتضمّن تقييم النماذج اللغوية الكبيرة عادةً تقييمات أوسع للجودة والأمان.
مطابقة تامة
مقياس شامل لا يسمح إلا بنتيجتَين: إمّا أن تتطابق نتيجة النموذج مع الحقيقة الأساسية أو النص المرجعي تمامًا، أو لا تتطابق. على سبيل المثال، إذا كانت الحقيقة الأساسية هي برتقالي، فإنّ ناتج النموذج الوحيد الذي يحقّق المطابقة التامة هو برتقالي.
يمكن أن تقيّم المطابقة التامة أيضًا النماذج التي يكون الناتج منها عبارة عن تسلسل (قائمة مرتبة من العناصر). بشكل عام، تتطلّب المطابقة التامة أن تتطابق القائمة المرتبة التي تم إنشاؤها مع البيانات الأساسية، أي يجب أن يكون ترتيب كل عنصر في القائمتين هو نفسه. مع ذلك، إذا كانت البيانات الأساسية تتضمّن تسلسلات صحيحة متعدّدة، تتطلّب المطابقة التامة أن يطابق الناتج الذي يقدّمه النموذج أحد التسلسلات الصحيحة.
على سبيل المثال
قيم أحد صفوف الميزات وربما تصنيف تندرج الأمثلة في التعلم المُوجّه ضمن فئتين عامّتَين:
- يتألف المثال المصنّف من ميزة واحدة أو أكثر وتصنيف. يتم استخدام الأمثلة المصنَّفة أثناء التدريب.
- يتألف مثال غير مصنّف من ميزة واحدة أو أكثر بدون تصنيف. يتم استخدام الأمثلة غير المصنّفة أثناء الاستدلال.
على سبيل المثال، لنفترض أنّك تدرب نموذجًا لتحديد تأثير الظروف الجوية على درجات اختبار الطلاب. في ما يلي ثلاثة أمثلة مصنّفة:
| الميزات | التصنيف | ||
|---|---|---|---|
| درجة الحرارة | الرطوبة | الضغط | نتيجة الاختبار |
| 15 | 47 | 998 | جيدة |
| 19 | 34 | 1020 | ممتاز |
| 18 | 92 | 1012 | سيئة |
في ما يلي ثلاثة أمثلة غير مصنّفة:
| درجة الحرارة | الرطوبة | الضغط | |
|---|---|---|---|
| 12 | 62 | 1014 | |
| 21 | 47 | 1017 | |
| 19 | 41 | 1021 |
عادةً ما يكون صف مجموعة البيانات هو المصدر الأولي للمثال. أي أنّ المثال يتألف عادةً من مجموعة فرعية من الأعمدة في مجموعة البيانات. علاوةً على ذلك، يمكن أن تتضمّن الميزات في أحد الأمثلة أيضًا ميزات اصطناعية، مثل تقاطع الميزات.
يمكنك الاطّلاع على التعلم الموجَّه في دورة "مقدمة عن تعلُّم الآلة" التدريبية للحصول على مزيد من المعلومات.
إعادة تجربة
في التعلّم المعزّز، DQN هي تقنية تُستخدَم للحدّ من الارتباطات الزمنية في بيانات التدريب. يخزّن الوكيل عمليات نقل الحالة في مخزن مؤقت لإعادة التشغيل، ثم يأخذ عيّنات من عمليات النقل من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات التدريب.
انحياز المُختبِر
اطّلِع على الانحياز التأكيدي.
مشكلة التدرّج المتفجّر
ميل التدرجات في الشبكات العصبية العميقة (خاصةً الشبكات العصبية المتكررة) إلى أن تصبح شديدة الانحدار (عالية) بشكل مفاجئ. غالبًا ما تؤدي الانحدارات الحادة إلى تعديلات كبيرة جدًا على الأوزان الخاصة بكل عقدة في أي شبكة عصبونية عميقة.
تصبح النماذج التي تعاني من مشكلة تزايد التدرّج اللوني بشكل كبير صعبة التدريب أو مستحيلة التدريب. يمكن أن يساعد اقتطاع التدرج في الحدّ من هذه المشكلة.
قارِن ذلك بمشكلة التدرّج المتلاشي.
Extreme Summarization (xsum)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تلخيص مستند واحد. يتألف كل إدخال في مجموعة البيانات مما يلي:
- مستند من تأليف هيئة الإذاعة البريطانية (BBC)
- ملخّص من جملة واحدة لهذا المستند
لمزيد من التفاصيل، يُرجى الاطّلاع على لا أريد التفاصيل، أريد الملخّص فقط! Topic-Aware Convolutional Neural Networks for Extreme Summarization
F
F1
مقياس التصنيف الثنائي "المجمّع" الذي يعتمد على كل من الدقة واكتمال التوقعات الإيجابية. في ما يلي الصيغة:
الواقعية
في عالم تعلّم الآلة، تشير هذه السمة إلى نموذج يستند في نتائجه إلى الواقع. الحقيقة هي مفهوم وليست مقياسًا. على سبيل المثال، لنفترض أنّك أرسلت الطلب التالي إلى نموذج لغوي كبير:
ما هي الصيغة الكيميائية لملح الطعام؟
سيجيب النموذج الذي يحسّن صحة المعلومات على النحو التالي:
NaCl
قد يكون من المغري افتراض أنّ جميع النماذج يجب أن تستند إلى الوقائع. ومع ذلك، يجب أن تؤدي بعض الطلبات، مثل ما يلي، إلى تحسين الإبداع بدلاً من الدقة في نموذج الذكاء الاصطناعي التوليدي.
أريد سماع قصيدة مضحكة عن رائد فضاء ويسروع.
ومن غير المرجّح أن تكون الأبيات الناتجة مستندة إلى الواقع.
التباين مع الأساس
قيد الإنصاف
تطبيق قيد على خوارزمية لضمان استيفاء تعريف واحد أو أكثر للإنصاف تشمل أمثلة قيود العدالة ما يلي:- المعالجة اللاحقة لناتج النموذج
- تعديل دالة الخسارة لتضمين عقوبة على انتهاك مقياس العدالة
- إضافة قيد رياضي مباشرةً إلى مسألة الحل الأمثل
مقياس العدالة
تعريف رياضي لمفهوم "الإنصاف" يمكن قياسه. تشمل بعض مقاييس العدالة الشائعة الاستخدام ما يلي:
تستبعد العديد من مقاييس العدالة بعضها البعض، راجِع عدم توافق مقاييس العدالة.
سالب خاطئ
مثال يخطئ فيه النموذج في التنبؤ بالفئة السلبية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكنّ هذه الرسالة الإلكترونية هي في الواقع رسالة غير مرغوب فيها.
معدّل السالب الخاطئ
يشير ذلك المصطلح إلى نسبة الأمثلة الإيجابية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة السلبية. تحتسب الصيغة التالية معدّل النتائج السلبية الخاطئة:
لمزيد من المعلومات، يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة".
موجب خاطئ
مثال يخطئ فيه النموذج في توقّع الفئة الإيجابية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها (الفئة الإيجابية)، ولكن في الواقع، هذه الرسالة ليست رسالة غير مرغوب فيها.
لمزيد من المعلومات، يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة".
معدّل الموجب الخاطئ
يشير ذلك المصطلح إلى نسبة الأمثلة السالبة الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة الموجبة. تحتسب الصيغة التالية معدّل الإيجابية الخاطئة:
معدل الموجب الخاطئ هو المحور السيني في منحنى خاصية تشغيل جهاز الاستقبال.
يمكنك الاطّلاع على التصنيف: منحنى ROC ومقياس AUC في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
التدهور السريع
التدريب هو أسلوب لتحسين أداء نماذج اللغات الكبيرة. يتضمّن التدهور السريع خفض معدّل التعلّم بسرعة أثناء التدريب. تساعد هذه الاستراتيجية في منع النموذج من المبالغة في التكيّف مع بيانات التدريب، كما تحسّن التعميم.
ميزة
متغيّر إدخال في نموذج تعلُّم الآلة يتألف المثال من ميزة واحدة أو أكثر. على سبيل المثال، لنفترض أنّك تدرب نموذجًا لتحديد تأثير الظروف الجوية على درجات الطلاب في الاختبارات. يعرض الجدول التالي ثلاثة أمثلة، يحتوي كل منها على ثلاث سمات وتصنيف واحد:
| الميزات | التصنيف | ||
|---|---|---|---|
| درجة الحرارة | الرطوبة | الضغط | نتيجة الاختبار |
| 15 | 47 | 998 | 92 |
| 19 | 34 | 1020 | 84 |
| 18 | 92 | 1012 | 87 |
التباين مع التصنيف
يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
مضروب مجموعات الخصائص
الخاصية الاصطناعية هي خاصية يتم إنشاؤها من خلال "دمج" الخصائص الفئوية أو الخصائص المقسَّمة إلى مجموعات.
على سبيل المثال، لنفترض أنّ لديك نموذجًا "لتوقّع الحالة المزاجية" يمثّل درجة الحرارة في إحدى الفئات الأربع التالية:
freezingchillytemperatewarm
وتمثّل سرعة الرياح في إحدى الفئات الثلاث التالية:
stilllightwindy
بدون عمليات الربط بين الميزات، يتم تدريب النموذج الخطي بشكل مستقل على كل من المجموعات السبع المختلفة السابقة. لذا، يتدرب النموذج على، على سبيل المثال،
freezing بشكل مستقل عن التدريب على، على سبيل المثال،
windy.
يمكنك بدلاً من ذلك إنشاء تقاطع ميزات لدرجة الحرارة وسرعة الرياح. ستتضمّن هذه السمة الاصطناعية 12 قيمة محتملة على النحو التالي:
freezing-stillfreezing-lightfreezing-windychilly-stillchilly-lightchilly-windytemperate-stilltemperate-lighttemperate-windywarm-stillwarm-lightwarm-windy
بفضل عمليات الربط بين الميزات، يمكن للنموذج التعرّف على الاختلافات في الحالة المزاجية بين يوم freezing-windy ويوم freezing-still.
إذا أنشأت ميزة اصطناعية من ميزتَين يتضمّن كل منهما الكثير من التصنيفات المختلفة، سيحتوي تقاطع الميزتَين الناتج على عدد كبير من المجموعات المحتملة. على سبيل المثال، إذا كانت إحدى السمات تتضمّن 1,000 مجموعة والأخرى تتضمّن 2,000 مجموعة، سيتضمّن تقاطع السمات الناتج 2,000,000 مجموعة.
رياضيًا، يكون التقاطع ناتجًا ديكارتيًا.
يتم استخدام عمليات ضرب الميزات بشكل أساسي مع النماذج الخطية، ونادرًا ما يتم استخدامها مع الشبكات العصبية.
لمزيد من المعلومات، راجِع البيانات الفئوية: تقاطعات الميزات في "دورة مكثّفة عن تعلّم الآلة".
هندسة الميزات
عملية تتضمّن الخطوات التالية:
- تحديد الميزات التي قد تكون مفيدة في تدريب نموذج
- تحويل البيانات الأولية من مجموعة البيانات إلى إصدارات فعّالة من هذه الميزات
على سبيل المثال، قد تحدّد أنّ temperature قد تكون ميزة مفيدة. بعد ذلك، يمكنك تجربة التجميع في فئات
لتحسين ما يمكن أن يتعلّمه النموذج من نطاقات temperature مختلفة.
يُطلق على عملية تصميم الميزات أحيانًا اسم استخراج الميزات أو تحويل البيانات إلى ميزات.
راجِع البيانات الرقمية: كيف يستوعب النموذج البيانات باستخدام متجهات الميزات في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
استخراج الميزات
مصطلح محمل بشكل زائد له أحد التعريفين التاليين:
- استرداد تمثيلات الميزات الوسيطة التي تم احتسابها بواسطة نموذج غير خاضع للإشراف أو نموذج مُدرَّب مسبقًا (على سبيل المثال، قيم الطبقة المخفية في شبكة عصبية) لاستخدامها في نموذج آخر كإدخال
- مرادف هندسة الخصائص
أهمية الميزات
مرادف أهمية المتغيرات
مجموعة الميزات
مجموعة الميزات التي يتم تدريب نموذج تعلُّم الآلة عليها. على سبيل المثال، قد تتألف مجموعة بسيطة من السمات لنموذج يتنبأ بأسعار المساكن من الرمز البريدي ومساحة العقار وحالته.
مواصفات الميزة
تصف هذه السمة المعلومات المطلوبة لاستخراج بيانات الميزات من بروتوكول tf.Example. بما أنّ tf.Example protocol buffer هي مجرد حاوية للبيانات، عليك تحديد ما يلي:
- البيانات المُراد استخراجها (أي مفاتيح الميزات)
- نوع البيانات (على سبيل المثال، عدد عشري أو عدد صحيح)
- الطول (ثابت أو متغير)
متّجه الميزات
مصفوفة قيم الميزة التي تتضمّن مثالاً. يتم إدخال متجه الميزات أثناء التدريب وأثناء الاستنتاج. على سبيل المثال، قد يكون متجه الميزات لنموذج يتضمّن ميزتَين منفصلتَين كما يلي:
[0.92, 0.56]
يقدّم كل مثال قيمًا مختلفة لمتّجه الميزات، لذا يمكن أن يكون متّجه الميزات للمثال التالي على النحو التالي:
[0.73, 0.49]
تحدّد هندسة الميزات كيفية تمثيل الميزات في متجه الميزات. على سبيل المثال، يمكن تمثيل ميزة فئوية ثنائية ذات خمس قيم محتملة باستخدام الترميز الساخن. في هذه الحالة، سيتألف جزء متجه الميزات الخاص بمثال معيّن من أربعة أصفار و1.0 واحد في الموضع الثالث، كما يلي:
[0.0, 0.0, 1.0, 0.0, 0.0]
كمثال آخر، لنفترض أنّ نموذجك يتكوّن من ثلاث ميزات:
- سمة فئوية ثنائية ذات خمس قيم محتملة يتم تمثيلها باستخدام الترميز الساخن، على سبيل المثال:
[0.0, 1.0, 0.0, 0.0, 0.0] - ميزة فئوية ثنائية أخرى تتضمّن ثلاث قيم محتملة ممثّلة باستخدام الترميز الأحادي، مثل:
[0.0, 0.0, 1.0] - سمة نقطة عائمة، على سبيل المثال:
8.3
في هذه الحالة، سيتم تمثيل متجه الميزات لكل مثال بتسع قيم. بالنظر إلى القيم النموذجية في القائمة السابقة، سيكون متجه الميزات على النحو التالي:
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
راجِع البيانات الرقمية: كيف يستوعب النموذج البيانات باستخدام متجهات الميزات في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
featurization
عملية استخراج الميزات من مصدر إدخال، مثل مستند أو فيديو، وربط هذه الميزات بمتجه ميزات
يستخدم بعض خبراء تعلُّم الآلة مصطلح "تحديد الميزات" كمرادف لمصطلحَي هندسة الميزات أو استخراج الميزات.
التعلّم الموحّد
أسلوب موزّع لتعلُّم الآلة يدرّب نماذج تعلُّم الآلة باستخدام أمثلة لا مركزية مخزّنة على أجهزة مثل الهواتف الذكية. في التعلّم الموحّد، تنزّل مجموعة فرعية من الأجهزة النموذج الحالي من خادم مركزي منسّق. تستخدم الأجهزة الأمثلة المخزّنة عليها لإجراء تحسينات على النموذج. بعد ذلك، تحمّل الأجهزة التحسينات التي تم إدخالها على النموذج (ولكن ليس أمثلة التدريب) إلى الخادم المنسّق، حيث يتم تجميعها مع التعديلات الأخرى لإنشاء نموذج عالمي محسّن. بعد التجميع، لن تكون هناك حاجة إلى تحديثات النموذج التي تحسبها الأجهزة، ويمكن تجاهلها.
وبما أنّه لا يتم تحميل أمثلة التدريب مطلقًا، يلتزم التعلّم الموحّد بمبادئ الخصوصية المتعلّقة بجمع البيانات المركّز وتضييق نطاق جمع البيانات.
يمكنك الاطّلاع على القصة المصوّرة حول التعلّم الموحّد (نعم، قصة مصوّرة) للحصول على مزيد من التفاصيل.
حلقة الملاحظات
في تعلُّم الآلة، هي حالة تؤثّر فيها توقّعات النموذج في بيانات التدريب الخاصة بالنموذج نفسه أو نموذج آخر. على سبيل المثال، سيؤثر نموذج يقترح أفلامًا في الأفلام التي يشاهدها المستخدمون، ما سيؤثر بدوره في نماذج اقتراح الأفلام اللاحقة.
لمزيد من المعلومات، يمكنك الاطّلاع على أنظمة تعلُّم الآلة في مرحلة الإنتاج: أسئلة يجب طرحها في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
شبكة عصبونية ذات تغذية أمامية (FFN)
شبكة عصبية بدون اتصالات دورية أو متكررة على سبيل المثال، الشبكات العصبية العميقة التقليدية هي شبكات عصبية ذات تغذية أمامية. يختلف هذا النوع عن الشبكات العصبية المتكررة التي تكون دورية.
التعلّم ببضع فُرَص
أسلوب تعلُّم آلة، يُستخدم غالبًا لتصنيف العناصر، وهو مصمّم لتدريب نماذج تصنيف فعّالة من عدد صغير فقط من أمثلة التدريب.
يمكنك الاطّلاع أيضًا على التعلُّم بفرصة واحدة والتعلُّم بدون أمثلة.
التلقين ببضعة أمثلة
المطالبة التي تحتوي على أكثر من مثال واحد (بضع أمثلة) توضّح الطريقة التي يجب أن يستجيب بها النموذج اللغوي الكبير. على سبيل المثال، يتضمّن الطلب الطويل التالي مثالَين يوضّحان للنموذج اللغوي الكبير كيفية الإجابة عن طلب بحث.
| أجزاء من طلب واحد | ملاحظات |
|---|---|
| ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة. |
| فرنسا: يورو | إليك مثالاً. |
| المملكة المتحدة: الجنيه الإسترليني | مثال آخر. |
| الهند: | طلب البحث الفعلي |
يؤدي التلقين ببضعة أمثلة بشكل عام إلى نتائج أفضل من التلقين بلا أمثلة و التلقين بمثال واحد. ومع ذلك، يتطلّب التلقين ببضعة أمثلة تلقينًا أطول.
التلقين ببضعة أمثلة هو شكل من أشكال التعلّم ببضع فُرَص يتم تطبيقه على التعلّم المستند إلى الطلبات.
لمزيد من المعلومات، يمكنك الاطّلاع على هندسة المطالبات في "دورة مكثّفة عن تعلّم الآلة".
كمنجة
مكتبة إعدادات تستند إلى لغة Python وتتيح ضبط قيم الدوال والفئات بدون رموز برمجية أو بنية أساسية متداخلة. في حالة Pax وغيرها من قواعد بيانات تعلُّم الآلة، تمثّل هذه الدوال والفئات النماذج والتدريب والمَعلمات الفائقة.
يفترض Fiddle أنّ قواعد بيانات تعلُّم الآلة عادةً ما تكون مقسّمة إلى:
- رمز المكتبة الذي يحدّد الطبقات وأدوات التحسين
- الرمز البرمجي "الرابط" لمجموعة البيانات، والذي يستدعي المكتبات ويربط كل شيء ببعضه
تسجّل Fiddle بنية استدعاء رمز الربط في شكل غير مقيَّم وقابل للتعديل.
الضبط الدقيق
عملية تدريب ثانية خاصة بمهمة معيّنة يتم إجراؤها على نموذج مدرَّب مسبقًا لتحسين مَعلماته لحالة استخدام محدّدة. على سبيل المثال، يكون تسلسل التدريب الكامل لبعض النماذج اللغوية الكبيرة على النحو التالي:
- التدريب المُسبَق: يتم تدريب نموذج لغوي كبير على مجموعة بيانات عامة واسعة النطاق، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
- الضبط الدقيق: تدريب النموذج المدرَّب مسبقًا لتنفيذ مهمة محدّدة، مثل الردّ على الاستفسارات الطبية يتضمّن الضبط الدقيق عادةً مئات أو آلاف الأمثلة التي تركّز على المهمة المحدّدة.
كمثال آخر، يكون تسلسل التدريب الكامل لنموذج صور كبير على النحو التالي:
- التدريب المُسبَق: تدريب نموذج كبير للصور على مجموعة بيانات عامة ضخمة من الصور، مثل جميع الصور في مستودع Wikimedia.
- الضبط الدقيق: تدريب النموذج المدرَّب مسبقًا لتنفيذ مهمة محدّدة، مثل إنشاء صور لحيتان الأوركا
يمكن أن يتضمّن الضبط الدقيق أي مجموعة من الاستراتيجيات التالية:
- تعديل جميع المعلَمات الحالية للنموذج المدرَّب مسبقًا يُعرف ذلك أحيانًا باسم الضبط الدقيق الكامل.
- تعديل بعض المَعلمات الحالية للنموذج المدرَّب مسبقًا (عادةً، الطبقات الأقرب إلى طبقة الإخراج)، مع الحفاظ على المَعلمات الحالية الأخرى بدون تغيير (عادةً، الطبقات الأقرب إلى طبقة الإدخال) راجِع مقالة الضبط الفعّال من حيث المَعلمات.
- إضافة المزيد من الطبقات، عادةً ما تكون في أعلى الطبقات الحالية الأقرب إلى طبقة الإخراج
الضبط الدقيق هو أحد أشكال التعلم النقلي. وبالتالي، قد تستخدم عملية الضبط الدقيق دالة خسارة مختلفة أو نوع نموذج مختلفًا عن تلك المستخدَمة في تدريب النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج كبير للصور مدرَّب مسبقًا بدقة لإنتاج نموذج انحدار يعرض عدد الطيور في صورة إدخال.
قارِن بين الضبط الدقيق والمصطلحات التالية:
يمكنك الاطّلاع على الضبط الدقيق في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نموذج الفلاش
مجموعة من نماذج Gemini الصغيرة نسبيًا والمحسَّنة للعمل بسرعة مع زمن استجابة منخفض. تم تصميم نماذج Flash لمجموعة كبيرة من التطبيقات التي تتطلّب ردودًا سريعة ومعدل نقل بيانات مرتفعًا.
كتّان
مكتبة مفتوحة المصدر وعالية الأداء للتعلّم العميق، تم إنشاؤها استنادًا إلى JAX. توفّر Flax دوال للتدريب للشبكات العصبية، بالإضافة إلى طرق لتقييم أدائها.
Flaxformer
Transformer مكتبة مفتوحة المصدر، تم إنشاؤها استنادًا إلى Flax، وهي مصمَّمة في الأساس لمعالجة اللغة الطبيعية والأبحاث المتعدّدة الوسائط.
نسيان كلمة مرور البوابة
جزء من خلية الذاكرة الطويلة الأمد القصيرة الأمد ينظّم تدفّق المعلومات عبر الخلية. تحافظ بوابات النسيان على السياق من خلال تحديد المعلومات التي سيتم تجاهلها من حالة الخلية.
النموذج الأساسي
نموذج مدرَّب مسبقًا كبير جدًا تم تدريبه على مجموعة تدريب هائلة ومتنوّعة. يمكن للنموذج الأساسي تنفيذ ما يلي:
- الاستجابة بشكل جيد لمجموعة كبيرة من الطلبات
- يمكن استخدامها كنموذج أساسي لإجراء المزيد من عمليات الضبط الدقيق أو التخصيص الأخرى.
بعبارة أخرى، يكون النموذج الأساسي فعّالاً جدًا بشكل عام، ولكن يمكن تخصيصه بشكل أكبر ليصبح أكثر فائدةً في مهمة معيّنة.
نسبة النجاحات
مقياس لتقييم النص الذي تم إنشاؤه في نموذج تعلُّم الآلة يشير جزء حالات النجاح إلى عدد مخرجات النص التي تم إنشاؤها "بنجاح" مقسومًا على إجمالي عدد مخرجات النص التي تم إنشاؤها. على سبيل المثال، إذا أنشأ نموذج لغة كبير 10 حِزم من الرموز البرمجية، ونجح في إنشاء خمس منها، ستكون نسبة النجاح 50%.
على الرغم من أنّ مقياس "نسبة النجاح" مفيد بشكل عام في الإحصاء، إلا أنّه في تعلُّم الآلة، يكون هذا المقياس مفيدًا بشكل أساسي لقياس المهام التي يمكن التحقّق منها، مثل إنشاء الرموز أو حلّ المسائل الرياضية.
دالّة softmax الكاملة
مرادف softmax
يختلف عن تحليل العينات المُحتملة.
لمزيد من المعلومات، يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
طبقة مكتملة الاتصال
طبقة مخفية يتم فيها ربط كل عقدة بكل عقدة في الطبقة المخفية اللاحقة.
تُعرف الطبقة المكتملة الاتصال أيضًا باسم الطبقة الكثيفة.
تحويل الدالة
دالة تأخذ دالة كمدخل وتعرض دالة معدَّلة كمخرج. تستخدم JAX عمليات تحويل الدوال.
G
GAN
اختصار شبكة الخصومة التوليدية
Gemini
منظومة متكاملة تضمّ أحدث تقنيات الذكاء الاصطناعي من Google تشمل عناصر هذا النظام البيئي ما يلي:
- نماذج Gemini مختلفة
- هي واجهة محادثة تفاعلية مع أحد نماذج Gemini. يكتب المستخدمون طلبات ويردّ Gemini على هذه الطلبات.
- واجهات Gemini API المختلفة
- منتجات مختلفة للأنشطة التجارية تستند إلى نماذج Gemini، مثل Gemini في Google Cloud
نماذج Gemini
نماذج متعددة الوسائط المتطورة من Google المستندة إلى Transformer تم تصميم نماذج Gemini خصيصًا للاندماج مع الوكلاء.
يمكن للمستخدمين التفاعل مع نماذج Gemini بطرق متنوعة، بما في ذلك من خلال واجهة حوار تفاعلية ومن خلال حِزم تطوير البرامج (SDK).
Gemma
مجموعة من النماذج المفتوحة والخفيفة تم إنشاؤها بالاستناد إلى الأبحاث والتكنولوجيا نفسها التي استُخدمَت لإنشاء نماذج Gemini تتوفّر عدة نماذج مختلفة من Gemma، يقدّم كل منها ميزات مختلفة، مثل الرؤية والترميز واتّباع التعليمات. لمزيد من التفاصيل، يُرجى الاطّلاع على Gemma.
الذكاء الاصطناعي التوليدي أو genAI
اختصار الذكاء الاصطناعي التوليدي
التعميم
تشير إلى قدرة النموذج على تقديم توقّعات صحيحة بشأن بيانات جديدة لم يسبق له رؤيتها. النموذج الذي يمكنه التعميم هو عكس النموذج الذي يفرط في التوافق.
يمكنك الاطّلاع على التعميم في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
منحنى التعميم
رسم بياني لكل من فقدان التدريب وفقدان التحقّق كدالة لعدد التكرارات
يمكن أن يساعدك منحنى التعميم في رصد حالات التطابق الزائد المحتملة. على سبيل المثال، يشير منحنى التعميم التالي إلى زيادة الملاءمة لأنّ خسارة التحقّق من الصحة تصبح في النهاية أعلى بكثير من خسارة التدريب.
يمكنك الاطّلاع على التعميم في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نموذج خطّي معمَّم
تعميم لنماذج الانحدار باستخدام المربعات الصغرى، والتي تستند إلى الضوضاء الغاوسية، إلى أنواع أخرى من النماذج التي تستند إلى أنواع أخرى من الضوضاء، مثل ضوضاء بواسون أو الضوضاء الفئوية تشمل أمثلة النماذج الخطية المعمَّمة ما يلي:
- الانحدار اللوجستي
- الانحدار المتعدد الفئات
- انحدار التربيعات الأقل
يمكن العثور على مَعلمات النموذج الخطي المعمَّم من خلال التحسين المحدّب.
تتضمّن النماذج الخطية المعمَّمة الخصائص التالية:
- إنّ متوسط التوقّع لنموذج الانحدار الأمثل للمربّعات الصغرى يساوي متوسط التصنيف في بيانات التدريب.
- إنّ متوسط الاحتمالية التي يتوقّعها نموذج الانحدار اللوجستي الأمثل يساوي متوسط التصنيف في بيانات التدريب.
تكون قدرة النموذج الخطي المعمَّم محدودة بميزاته. على عكس النموذج العميق، لا يمكن للنموذج الخطي المعمَّم "تعلُّم ميزات جديدة".
النص الذي يتم إنشاؤه
بشكل عام، يشير إلى النص الذي ينتجه نموذج تعلُّم الآلة. عند تقييم النماذج اللغوية الكبيرة، تقارن بعض المقاييس النص الذي تم إنشاؤه بالنص المرجعي. على سبيل المثال، لنفترض أنّك تحاول تحديد مدى فعالية نموذج تعلُّم آلي في الترجمة من الفرنسية إلى الهولندية. في هذه الحالة:
- النص الذي تم إنشاؤه هو الترجمة الهولندية التي يعرضها نموذج تعلُّم الآلة.
- النص المرجعي هو الترجمة الهولندية التي يقدّمها مترجم بشري (أو برنامج).
يُرجى العِلم أنّ بعض استراتيجيات التقييم لا تتضمّن نصًا مرجعيًا.
شبكة تنافسية توليدية (GAN)
نظام لإنشاء بيانات جديدة، حيث ينشئ مولّد البيانات، ويحدّد المميّز ما إذا كانت البيانات التي تم إنشاؤها صالحة أم غير صالحة.
يمكنك الاطّلاع على دورة شبكات الخصومة التوليدية للحصول على مزيد من المعلومات.
الذكاء الاصطناعي التوليدي
مجال تحويلي ناشئ بدون تعريف رسمي مع ذلك، يتّفق معظم الخبراء على أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنشاء محتوى يتضمّن كل ما يلي:
- معقّد
- متماسك
- الصورة الأصلية
تشمل أمثلة الذكاء الاصطناعي التوليدي ما يلي:
- النماذج اللغوية الكبيرة، التي يمكنها إنشاء نصوص أصلية معقّدة والإجابة عن الأسئلة
- نموذج إنشاء الصور الذي يمكنه إنتاج صور فريدة
- نماذج إنشاء المحتوى الصوتي والموسيقي، والتي يمكنها تأليف موسيقى أصلية أو إنشاء محتوى صوتي واقعي
- نماذج إنشاء الفيديوهات التي يمكنها إنشاء فيديوهات أصلية
يمكن لبعض التقنيات السابقة، بما في ذلك شبكات الذاكرة الطويلة المدى (LSTM) والشبكات العصبية المتكررة (RNN)، إنشاء محتوى أصلي ومتماسك أيضًا. يرى بعض الخبراء أنّ هذه التكنولوجيات السابقة هي ذكاء اصطناعي توليدي، بينما يرى آخرون أنّ الذكاء الاصطناعي التوليدي الحقيقي يتطلّب نواتج أكثر تعقيدًا مما يمكن أن تنتجه هذه التكنولوجيات السابقة.
يختلف ذلك عن تعلُّم الآلة التوقّعي.
نموذج توليدي
من الناحية العملية، النموذج الذي ينفّذ أيًا مما يلي:
- إنشاء (توليد) أمثلة جديدة من مجموعة بيانات التدريب على سبيل المثال، يمكن لنموذج توليدي إنشاء قصائد بعد تدريبه على مجموعة بيانات من القصائد. يندرج الجزء المنشئ من الشبكة التنافسية التوليدية ضمن هذه الفئة.
- تحدّد هذه السمة احتمال أن يكون المثال الجديد واردًا من مجموعة التدريب أو تم إنشاؤه من الآلية نفسها التي تم إنشاء مجموعة التدريب منها. على سبيل المثال، بعد التدريب على مجموعة بيانات تتألف من جمل باللغة الإنجليزية، يمكن لنموذج توليدي تحديد احتمال أن يكون الإدخال الجديد جملة صالحة باللغة الإنجليزية.
يمكن للنموذج التوليدي نظريًا التمييز بين توزيع الأمثلة أو الميزات المعينة في مجموعة البيانات. والمقصود:
p(examples)
نماذج التعلّم غير الموجَّه هي نماذج توليدية.
يختلف عن النماذج التمييزية.
منشئ
النظام الفرعي ضمن شبكة معادية توليدية الذي ينشئ أمثلة جديدة.
يختلف عن النموذج التمييزي.
gini impurity
مقياس مشابه لإنتروبيا تستخدم أدوات التقسيم قيمًا مشتقة من عدم المساواة في جيني أو الإنتروبيا لإنشاء شروط لتصنيف أشجار القرارات. يتم استنتاج تحصيل المعلومات من قصور المعلومات. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المستمد من عدم نقاء جيني، ولكن هذا المقياس غير المسمى لا يقل أهمية عن اكتساب المعلومات.
يُطلق على عدم نقاء جيني أيضًا اسم مؤشر جيني أو ببساطة جيني.
مجموعة البيانات الذهبية
مجموعة من البيانات التي تمّت إدارتها يدويًا وتتضمّن الحقيقة الأساسية يمكن للفرق استخدام مجموعة بيانات ذهبية واحدة أو أكثر لتقييم جودة النموذج.
تتضمّن بعض مجموعات البيانات الذهبية نطاقات فرعية مختلفة من البيانات الأساسية. على سبيل المثال، قد تتضمّن مجموعة البيانات الذهبية لتصنيف الصور معلومات عن ظروف الإضاءة ودقة الصورة.
ردّ ذهبي
ردّ معروف بأنّه جيد. على سبيل المثال، إذا كان لديك الطلب التالي:
2 + 2
من المفترض أن تكون الإجابة المثالية هي:
4
Google AI Studio
أداة من Google توفّر واجهة سهلة الاستخدام لتجربة التطبيقات وإنشائها باستخدام نماذج اللغة الكبيرة من Google. يمكنك الاطّلاع على الصفحة الرئيسية في Google AI Studio لمعرفة التفاصيل.
GPT (Generative Pre-trained Transformer)
هي مجموعة من النماذج اللغوية الكبيرة المستندة إلى Transformer، والتي طوّرتها شركة OpenAI.
يمكن أن تنطبق صيغ GPT على وسائط متعددة، بما في ذلك:
- إنشاء الصور (مثل ImageGPT)
- تحويل النص إلى صورة (على سبيل المثال، DALL-E)
متدرج
متّجه المشتقات الجزئية بالنسبة إلى جميع المتغيرات المستقلة في تعلُّم الآلة، التدرّج هو متّجه المشتقات الجزئية لدالة النموذج. يشير التدرّج إلى اتجاه الانحدار الأكثر حدّة.
تجميع التدرّج
إحدى تقنيات الانتشار العكسي التي تعدّل المَعلمات مرة واحدة فقط لكل حقبة بدلاً من مرة واحدة لكل تكرار. بعد معالجة كل دفعة صغيرة، يؤدي تجميع التدرّجات إلى تعديل المجموع الجاري للتدرّجات. بعد ذلك، وبعد معالجة آخر مجموعة مصغّرة في الحقبة، يعدّل النظام أخيرًا المَعلمات استنادًا إلى مجموع كل تغييرات التدرّج.
تكون عملية تجميع التدرّجات مفيدة عندما يكون حجم الدفعة كبيرًا جدًا مقارنةً بكمية الذاكرة المتاحة للتدريب. عندما تكون الذاكرة مشكلة، يكون الميل الطبيعي هو تقليل حجم الدفعة. ومع ذلك، فإنّ تقليل حجم الدفعة في الانتشار الخلفي العادي يزيد عدد تعديلات المَعلمات. تتيح ميزة "تجميع التدرّجات" للنموذج تجنُّب مشاكل الذاكرة مع الحفاظ على كفاءة التدريب.
أشجار القرارات المعزّزة بالتدرّج (GBT)
هو نوع من غابة القرارات حيث:
- تعتمد عملية التدريب على التعزيز الاشتقاقي.
- النموذج الضعيف هو شجرة قرارات.
يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج في دورة "غابات القرارات" التدريبية للحصول على مزيد من المعلومات.
التعزيز الاشتقاقي
خوارزمية تدريب يتم فيها تدريب نماذج ضعيفة لتحسين جودة نموذج قوي بشكل متكرر (تقليل الخسارة). على سبيل المثال، قد يكون النموذج الضعيف نموذجًا خطيًا أو نموذج شجرة قرار صغيرًا. يصبح النموذج القوي مجموع كل النماذج الضعيفة التي تم تدريبها سابقًا.
في أبسط أشكال تعزيز التدرّج، يتم في كل تكرار تدريب نموذج ضعيف لتوقُّع تدرّج الفقدان للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي عن طريق طرح التدرّج المتوقّع، على غرار النزول بالتدرّج.
where:
- $F_{0}$ هو نموذج البداية القوية.
- $F_{i+1}$ هو النموذج القوي التالي.
- $F_{i}$ هو النموذج القوي الحالي.
- $\xi$ هي قيمة بين 0.0 و1.0 تُسمى الانكماش، وهي مشابهة لمعدل التعلّم في خوارزمية انحدار التدرّج.
- $f_{i}$ هو النموذج الضعيف الذي تم تدريبه لتوقّع تدرّج الخسارة في $F_{i}$.
تتضمّن الأنواع الحديثة من تعزيز التدرّج أيضًا المشتقة الثانية (Hessian) للدالة الخسارة في حساباتها.
تُستخدَم أشجار القرارات عادةً كنماذج ضعيفة في تعزيز التدرّج. يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج.
اقتصاص التدرّج
آلية شائعة الاستخدام للحدّ من مشكلة تضخّم التدرّج من خلال الحدّ بشكل مصطنع (القص) من القيمة القصوى للتدرّجات عند استخدام النزول بالتدرّج من أجل تدريب نموذج.
نزول تدرّجي
أسلوب رياضي للحدّ من الخسارة. تعمل عملية "انحدار التدرّج" بشكل متكرّر على تعديل الأوزان والانحيازات، وتعثر تدريجيًا على أفضل تركيبة لتقليل الخسارة.
تُعدّ طريقة "النزول التدريجي" أقدم بكثير من تعلُّم الآلة.
يمكنك الاطّلاع على الانحدار الخطي: نزول التدرّج في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" لمزيد من المعلومات.
رسم بياني
في TensorFlow، هي مواصفات عملية حسابية. تمثّل العُقد في الرسم البياني العمليات. الحواف موجّهة وتمثّل تمرير نتيجة عملية (Tensor) كمعامل إلى عملية أخرى. استخدِم TensorBoard لتصوُّر رسم بياني.
تنفيذ الرسم البياني
بيئة برمجة TensorFlow ينشئ فيها البرنامج رسمًا بيانيًا أولاً، ثم ينفّذ كل هذا الرسم البياني أو جزءًا منه. تنفيذ الرسم البياني هو وضع التنفيذ التلقائي في TensorFlow 1.x.
يختلف ذلك عن التنفيذ الفوري.
سياسة جشعة
في التعلّم المعزّز، السياسة هي التي تختار دائمًا الإجراء الذي يحقّق أعلى عائد متوقّع.
الاستناد إلى الحقائق
هي خاصية في نموذج يستند ناتجها إلى مواد مصدرية معيّنة. على سبيل المثال، لنفترض أنّك قدّمت كتابًا كاملاً في الفيزياء كمدخل ("السياق") إلى نموذج لغوي كبير. بعد ذلك، تطرح سؤالاً في الفيزياء على هذا النموذج اللغوي الكبير. إذا كان ردّ النموذج يعكس معلومات واردة في هذا الكتاب المدرسي، يكون النموذج مستندًا إلى هذا الكتاب المدرسي.يُرجى العِلم أنّ النموذج المستند إلى بيانات واقعية ليس دائمًا نموذجًا واقعيًا. على سبيل المثال، قد يحتوي كتاب الفيزياء الذي تم إدخاله على أخطاء.
المعلومات الفعلية
الواقع
الشيء الذي حدث بالفعل
على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتوقّع ما إذا كان الطالب في سنته الأولى بالجامعة سيتخرّج في غضون ست سنوات. تتمثل الحقيقة الأساسية لهذا النموذج في ما إذا كان الطالب قد تخرّج بالفعل في غضون ست سنوات أم لا.
الانحياز لتشابه المجموعة
افتراض أنّ ما ينطبق على فرد معيّن ينطبق أيضًا على جميع الأفراد في تلك المجموعة يمكن أن تتفاقم آثار تحيّز تحديد المصدر الجماعي إذا تم استخدام أخذ العيّنات حسب الملاءمة لجمع البيانات. في عينة غير تمثيلية، قد يتم تقديم إحالات لا تعكس الواقع.
اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة والانحياز داخل المجموعة. يمكنك أيضًا الاطّلاع على الإنصاف: أنواع التحيز في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
H
النتائج غير الصحيحة
هي إنتاج نموذج ذكاء اصطناعي توليدي لنتائج تبدو معقولة ولكنّها غير صحيحة من الناحية الواقعية، ويدّعي النموذج أنّه يقدّم تأكيدًا بشأن العالم الحقيقي. على سبيل المثال، إذا ادّعى نموذج ذكاء اصطناعي توليدي أنّ باراك أوباما توفي عام 1865، يكون هذا النموذج يهلوس.
تجزئة
في تعلُّم الآلة، هي آلية لتجميع البيانات الفئوية، خاصةً عندما يكون عدد الفئات كبيرًا، ولكن عدد الفئات التي تظهر فعليًا في مجموعة البيانات يكون صغيرًا نسبيًا.
على سبيل المثال، تضم الأرض حوالي 73,000 نوع من الأشجار. يمكنك تمثيل كل نوع من أنواع الأشجار البالغ عددها 73,000 في 73,000 مجموعة منفصلة من المجموعات الفئوية. بدلاً من ذلك، إذا ظهر 200 نوع فقط من أنواع الأشجار هذه في مجموعة بيانات، يمكنك استخدام التجزئة لتقسيم أنواع الأشجار إلى 500 مجموعة مثلاً.
يمكن أن يحتوي حوض واحد على أنواع أشجار متعددة. على سبيل المثال، يمكن أن يؤدي التجزئة إلى وضع شجرة الباوباب وشجرة القيقب الأحمر، وهما نوعان مختلفان وراثيًا، في المجموعة نفسها. على أي حال، يظل التجزئة طريقة جيدة لربط مجموعات الفئات الكبيرة بعدد الحاويات المحدّد. يحوّل التجزئة ميزة فئوية تتضمّن عددًا كبيرًا من القيم المحتملة إلى عدد أصغر بكثير من القيم من خلال تجميع القيم بطريقة حتمية.
لمزيد من المعلومات، يُرجى الاطّلاع على البيانات الفئوية: المفردات والترميز الساخن في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
إرشادي
حل بسيط وسريع التنفيذ لمشكلة ما على سبيل المثال، "باستخدام طريقة إرشادية، حقّقنا دقة بنسبة% 86. وعندما انتقلنا إلى استخدام شبكة عصبية عميقة، ارتفعت الدقة إلى %98".
الطبقة المخفية
هي طبقة في شبكة عصبية تقع بين طبقة الإدخال (الميزات) وطبقة الإخراج (التوقّع). تتكوّن كل طبقة مخفية من خلية عصبية واحدة أو أكثر. على سبيل المثال، تحتوي الشبكة العصبية التالية على طبقتَين مخفيتَين، الأولى تحتوي على ثلاث خلايا عصبية والثانية على خليتَين عصبيتَين:
تحتوي الشبكة العصبية العميقة على أكثر من طبقة مخفية واحدة. على سبيل المثال، الرسم التوضيحي السابق هو شبكة عصبية عميقة لأنّ النموذج يحتوي على طبقتَين مخفيتَين.
لمزيد من المعلومات، يُرجى الاطّلاع على الشبكات العصبية: العُقد والطبقات المخفية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
التجميع الهرمي
فئة من خوارزميات التجميع التي تنشئ شجرة من المجموعات العنقودية. يُعد التجميع الهرمي مناسبًا للبيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع العنقودي الهرمي:
- تُعيّن عملية التجميع التراكمي كل مثال أولاً إلى مجموعته الخاصة، ثم تدمج بشكل متكرر أقرب المجموعات لإنشاء شجرة هرمية.
- تجمع التجميع التقسيمي جميع الأمثلة أولاً في مجموعة واحدة، ثم تقسم المجموعة بشكل متكرر إلى شجرة هرمية.
يختلف ذلك عن التجميع العنقودي المستند إلى النقاط المركزية.
يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع التدريبية للحصول على مزيد من المعلومات.
صعود التلال
خوارزمية لتحسين نموذج تعلُّم الآلة بشكل متكرّر ("الصعود إلى أعلى التل") إلى أن يتوقف النموذج عن التحسّن ("الوصول إلى قمة التل"). في ما يلي الشكل العام للخوارزمية:
- إنشاء نموذج أولي
- يمكنك إنشاء نماذج مرشّحة جديدة من خلال إجراء تعديلات بسيطة على طريقة التدريب أو الضبط الدقيق. قد يتطلّب ذلك العمل باستخدام مجموعة تدريب مختلفة قليلاً أو معلمات فائقة مختلفة.
- تقييم نماذج المرشّحين الجديدة واتّخاذ أحد الإجراءات التالية:
- إذا كان أداء النموذج المرشّح أفضل من أداء النموذج الأساسي، سيصبح النموذج المرشّح هو النموذج الأساسي الجديد. في هذه الحالة، كرِّر الخطوات 1 و2 و3.
- إذا لم يتفوّق أي نموذج على النموذج الأوّلي، يعني ذلك أنّك بلغت ذروة الأداء وعليك التوقّف عن تكرار العملية.
راجِع دليل ضبط التعلّم العميق للحصول على إرشادات حول ضبط المعلَمة الفائقة. راجِع وحدات البيانات في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على إرشادات حول تصميم الميزات.
الخسارة المفصلية
مجموعة من دوال الخسارة الخاصة بالتصنيف والمصمّمة للعثور على حدود القرار بأكبر مسافة ممكنة من كل مثال تدريبي، وبالتالي زيادة الهامش بين الأمثلة والحدود إلى أقصى حد. تستخدم آلات المتجهات الداعمة القائمة على النواة دالة الخسارة المفصلية (أو دالة ذات صلة، مثل دالة الخسارة المفصلية التربيعية). بالنسبة إلى التصنيف الثنائي، يتم تعريف دالة الخسارة المفصلية على النحو التالي:
حيث y هي التصنيف الصحيح، إما -1 أو +1، وy' هي المخرجات الأولية لنموذج التصنيف:
نتيجةً لذلك، يبدو الرسم البياني لدالة الخسارة المفصلية مقابل (y * y') على النحو التالي:
التحيّز التاريخي
هو نوع من التحيّز الموجود في العالم والذي تم تضمينه في مجموعة بيانات. وتميل هذه التحيزات إلى عكس الأفكار النمطية الثقافية الحالية، وعدم المساواة الديمغرافية، والتحيزات ضد مجموعات اجتماعية معيّنة.
على سبيل المثال، لنفترض نموذج تصنيف يتنبأ بما إذا كان مقدّم طلب القرض سيتخلف عن سداد القرض أم لا، وقد تم تدريبه على بيانات سابقة عن التخلف عن سداد القروض منذ الثمانينيات من البنوك المحلية في منطقتين مختلفتين. إذا كان المتقدّمون السابقون من "المجموعة أ" أكثر عرضة ست مرات للتخلّف عن سداد قروضهم مقارنةً بالمتقدّمين من "المجموعة ب"، قد يتعلّم النموذج تحيّزًا تاريخيًا يؤدي إلى انخفاض احتمالية موافقة النموذج على القروض في "المجموعة أ"، حتى إذا لم تعُد الشروط التاريخية التي أدّت إلى ارتفاع معدلات التخلّف عن السداد في هذه المجموعة ذات صلة.
لمزيد من المعلومات، يُرجى الاطّلاع على الإنصاف: أنواع التحيز في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
البيانات المحتجزة
أمثلة لم يتم استخدامها عمدًا ("تم استبعادها") أثناء التدريب مجموعة بيانات التحقّق من الصحة ومجموعة بيانات الاختبار هما مثالان على بيانات التحكّم. تساعد بيانات التحقّق في تقييم قدرة النموذج على التعميم على البيانات الأخرى غير البيانات التي تم تدريبه عليها. يقدّم معدّل الخطأ في مجموعة التحقّق تقديرًا أفضل لمعدّل الخطأ في مجموعة بيانات غير مرئية مقارنةً بمعدّل الخطأ في مجموعة التدريب.
مضيف
عند تدريب نموذج تعلُّم آلي على شرائح تسريع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، يكون الجزء من النظام الذي يتحكّم في كلّ مما يلي:
- التسلسل العام للرمز البرمجي
- استخراج بيانات مسار الإدخال وتحويلها
يعمل المضيف عادةً على وحدة معالجة مركزية (CPU)، وليس على شريحة تسريع، بينما يعالج الجهاز الموترات على شرائح التسريع.
التقييم البشري
عملية يقيّم فيها أشخاص جودة نتائج نموذج تعلُّم الآلة، مثل أن يقيّم أشخاص يتحدثون لغتين جودة نموذج ترجمة يستند إلى تعلُّم الآلة. ويكون التقييم البشري مفيدًا بشكل خاص في تقييم النماذج التي لا تتضمّن إجابة صحيحة واحدة.
يختلف ذلك عن التقييم التلقائي والتقييم التلقائي باستخدام أداة Autorater.
المشاركة البشرية (HITL)
عبارة عامة يمكن أن تعني أيًا مما يلي:
- سياسة عرض نتائج الذكاء الاصطناعي التوليدي بشكل نقدي أو متشكّك
- هي استراتيجية أو نظام لضمان مساهمة الأشخاص في تحديد سلوك النموذج وتقييمه وتحسينه. يسمح إبقاء الإنسان على اطّلاع دائم للذكاء الاصطناعي بالاستفادة من الذكاء الآلي والذكاء البشري معًا. على سبيل المثال، النظام الذي ينشئ فيه الذكاء الاصطناعي رموزًا برمجية يراجعها بعد ذلك مهندسو البرمجيات هو نظام يتضمّن تدخّل العنصر البشري.
المعلَمة الفائقة
المتغيرات التي يتم تعديلها أثناء عمليات التدريب المتتالية للنموذج، سواء تم ذلك من خلالك أو من خلال خدمة ضبط المعلمات الفائقة على سبيل المثال، معدّل التعلّم هو معلَمة فائقة. يمكنك ضبط معدّل التعلّم على 0.01 قبل جلسة تدريب واحدة. إذا تبيّن لك أنّ القيمة 0.01 مرتفعة جدًا، يمكنك ضبط معدّل التعلّم على 0.003 لجلسة التدريب التالية.
في المقابل، المَعلمات هي الأوزان والانحياز المختلفة التي يتعلّمها النموذج أثناء التدريب.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
مستوى فائق
حدّ يفصل مساحة إلى مساحتَين فرعيتَين على سبيل المثال، الخط هو مستوى فائق في بُعدين، والمستوى هو مستوى فائق في ثلاثة أبعاد. في التعلّم الآلي، يكون المستوى الفائق عادةً هو الحد الفاصل بين مساحة متعددة الأبعاد. تستخدم آلات متّجهات الدعم الأساسية مستويات فائقة لفصل الفئات الموجبة عن الفئات السالبة، وغالبًا ما يكون ذلك في مساحة عالية الأبعاد.
I
موزّعة بشكل مستقل ومتشابه
اختصار موزّعة بشكل مستقل ومتشابه
التعرّف على الصورة
هي عملية تصنيف الكائنات أو الأنماط أو المفاهيم في صورة. يُعرف التعرّف على الصور أيضًا باسم تصنيف الصور.
مجموعة بيانات غير متوازنة
مرادف مجموعة بيانات غير متوازنة الفئات
التحيّز الضمني
هي عملية إنشاء ارتباط أو افتراض تلقائيًا استنادًا إلى نماذج العقل والذكريات. يمكن أن يؤثر التحيز الضمني في ما يلي:
- طريقة جمع البيانات وتصنيفها
- طريقة تصميم وتطوير أنظمة تعلُّم الآلة
على سبيل المثال، عند إنشاء نموذج تصنيف للتعرّف على صور حفلات الزفاف، قد يستخدم أحد المهندسين ظهور فستان أبيض في الصورة كإحدى السمات. ومع ذلك، لم تكن الفساتين البيضاء من العادات إلا خلال عصور معيّنة وفي ثقافات معيّنة.
اطّلِع أيضًا على التحيّز التأكيدي.
الاستدلال
الشكل المختصر لتقدير القيمة
عدم توافق مقاييس الإنصاف
تشير إلى فكرة أنّ بعض مفاهيم العدالة غير متوافقة مع بعضها البعض ولا يمكن تحقيقها في الوقت نفسه. نتيجةً لذلك، لا يوجد مقياس عالمي واحد لتحديد مدى العدل يمكن تطبيقه على جميع مشاكل تعلُّم الآلة.
على الرغم من أنّ ذلك قد يبدو محبطًا، إلا أنّ عدم توافق مقاييس العدالة لا يعني أنّ الجهود المبذولة لتحقيق العدالة غير مثمرة. بدلاً من ذلك، تقترح هذه الإرشادات أنّه يجب تحديد الإنصاف حسب السياق لمشكلة معيّنة في تعلُّم الآلة، وذلك بهدف منع الأضرار المرتبطة بحالات الاستخدام المحدّدة.
يمكنك الاطّلاع على "حول إمكانية تحقيق العدالة" للحصول على مناقشة أكثر تفصيلاً حول عدم توافق مقاييس العدالة.
التعلّم داخل السياق
مرادف للتلقين ببضعة أمثلة
موزّعة بشكل مستقل ومتشابه
البيانات المستخلَصة من توزيع لا يتغيّر، ولا تعتمد فيه كل قيمة مستخلَصة على القيم التي تم استخلاصها سابقًا. إنّ التوزيع المتطابق والمستقل هو الغاز المثالي في مجال تعلُّم الآلة، وهو بنية رياضية مفيدة ولكنّها نادرًا ما توجد بالضبط في العالم الحقيقي. على سبيل المثال، قد يكون توزيع الزوّار على صفحة ويب متطابقًا ومستقلاً على مدار فترة زمنية قصيرة، أي أنّ التوزيع لا يتغيّر خلال تلك الفترة القصيرة، وتكون زيارة شخص ما مستقلة بشكل عام عن زيارة شخص آخر. ومع ذلك، إذا وسّعت نطاق هذا الإطار الزمني، قد تظهر اختلافات موسمية في عدد زوّار صفحة الويب.
يمكنك الاطّلاع أيضًا على عدم الثبات.
العدالة الفردية
مقياس عدالة يتحقّق مما إذا كان يتم تصنيف الأفراد المتشابهين بشكل مماثل. على سبيل المثال، قد ترغب أكاديمية Brobdingnagian في تحقيق العدالة الفردية من خلال ضمان أنّ فرص قبول طالبَين متطابقَين في الدرجات ونتائج الاختبارات الموحّدة متساوية.
يُرجى العِلم أنّ العدالة الفردية تعتمد بشكل كامل على طريقة تحديد "التشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، وقد تواجه خطر حدوث مشاكل جديدة في العدالة إذا لم يتضمّن مقياس التشابه معلومات مهمة (مثل مدى صعوبة المناهج الدراسية للطالب).
يمكنك الاطّلاع على "العدالة من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول العدالة الفردية.
الاستنتاج
في عملية تعلُّم الآلة التقليدية، يتم إجراء التوقعات من خلال تطبيق نموذج مدرَّب على أمثلة غير مصنَّفة. يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة في تعلُّم الآلة" لمعرفة المزيد.
في النماذج اللغوية الكبيرة، الاستدلال هو عملية استخدام نموذج مُدرَّب لإنشاء رد على طلب.
يختلف معنى الاستدلال إلى حدّ ما في الإحصاء. يمكنك الاطّلاع على مقالة الاستدلال الإحصائي على ويكيبيديا للحصول على التفاصيل.
مسار الاستدلال
في شجرة القرار، أثناء الاستدلال، يسلك مثال معيّن مسارًا من العقدة الجذرية إلى شروط أخرى، وينتهي بـ عقدة طرفية. على سبيل المثال، في شجرة القرار التالية، توضّح الأسهم السميكة مسار الاستنتاج لمثال يتضمّن قيم الميزات التالية:
- x = 7
- y = 12
- z = -3
في الرسم التوضيحي التالي، يمر مسار الاستنتاج بثلاث حالات قبل الوصول إلى العقدة الطرفية (Zeta).
تشير الأسهم الثلاثة السميكة إلى مسار الاستنتاج.
يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
تحصيل المعلومات
في غابات القرارات، يشير هذا المقياس إلى الفرق بين القصور في أحد الأجزاء والمجموع المرجّح (حسب عدد الأمثلة) للقصور في الأجزاء الفرعية. القصور في أحد الأجزاء هو القصور في الأمثلة الواردة في هذا الجزء.
على سبيل المثال، إليك قيم الإنتروبيا التالية:
- القصور في العقدة الرئيسية = 0.6
- قصور أحد العُقد الفرعية التي تتضمّن 16 مثالاً ذا صلة = 0.2
- مقياس القصور لجزء فرعي آخر يتضمّن 24 مثالاً ذا صلة = 0.1
وبالتالي، فإنّ% 40 من الأمثلة تقع في إحدى العُقد الفرعية و% 60 في العقدة الفرعية الأخرى. ولذلك:
- مجموع القصور المرجّح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
إذًا، يساوي تحصيل المعلومات:
- تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المرجّح للأجزاء الفرعية
- تحصيل المعلومات = 0.6 - 0.14 = 0.46
تسعى معظم أدوات التقسيم إلى إنشاء شروط تزيد من اكتساب المعلومات إلى أقصى حد.
الانحياز لأفراد المجموعة
إظهار التحيز لمجموعة الفرد أو خصائصه إذا كان المختبِرون أو المقيمون من أصدقاء مطوّر تعلُّم الآلة أو أفراد عائلته أو زملاء عمله، قد يؤدي التحيز داخل المجموعة إلى إبطال اختبار المنتج أو مجموعة البيانات.
الانحياز لأفراد المجموعة هو شكل من أشكال الانحياز لتشابه المجموعة. اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة.
يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
أداة إنشاء الإدخالات
آلية يتم من خلالها تحميل البيانات في شبكة عصبية
يمكن اعتبار أداة إنشاء الإدخالات مكونًا مسؤولاً عن معالجة البيانات الأولية وتحويلها إلى موترات يتم تكرارها لإنشاء دفعات للتدريب والتقييم والاستدلال.
طبقة الإدخال
الطبقة في الشبكة العصبية التي تحتوي على المتّجه المميز أي أنّ طبقة الإدخال توفّر أمثلة من أجل التدريب أو الاستنتاج. على سبيل المثال، تتألف طبقة الإدخال في الشبكة العصبية التالية من ميزتَين:
الشرط داخل المجموعة
في شجرة القرارات، الشرط هو شرط يختبر وجود عنصر واحد في مجموعة من العناصر. على سبيل المثال، ما يلي هو شرط ضمن المجموعة:
house-style in [tudor, colonial, cape]
أثناء الاستنتاج، إذا كانت قيمة السمة الخاصة بنمط المنزل هي tudor أو colonial أو cape، سيتم تقييم هذا الشرط على أنّه "نعم". إذا كانت قيمة ميزة أسلوب المنزل شيئًا آخر (على سبيل المثال، ranch)، سيتم تقييم هذا الشرط إلى "لا".
تؤدي الشروط المضمّنة عادةً إلى أشجار قرارات أكثر فعالية من الشروط التي تختبر الميزات المشفّرة بترميز one-hot.
بيئة افتراضية
مرادف لكلمة مثال
ضبط التعليمات
نوع من الضبط الدقيق يحسّن قدرة نموذج الذكاء الاصطناعي التوليدي على اتّباع التعليمات. تتضمّن عملية ضبط التعليمات تدريب نموذج على سلسلة من طلبات التعليمات، تغطي عادةً مجموعة كبيرة ومتنوعة من المهام. يميل النموذج الناتج الذي تم ضبطه وفقًا للتعليمات إلى إنشاء ردود مفيدة على الطلبات بلا أمثلة في مجموعة متنوعة من المهام.
المقارنة مع:
القابلية للتفسير
تشير إلى القدرة على شرح أو تقديم أسباب نموذج تعلُّم الآلة بعبارات يسهل على المستخدم فهمها.
معظم نماذج الانحدار الخطي، على سبيل المثال، يمكن تفسيرها بسهولة. (ما عليك سوى الاطّلاع على القيم التقديرية التي تم التدريب عليها لكل ميزة). تتسم غابات القرارات أيضًا بقابلية تأويل عالية. ومع ذلك، تتطلّب بعض النماذج عرضًا مرئيًا متطوّرًا لتصبح قابلة للتفسير.
يمكنك استخدام أداة تفسير التعلّم (LIT) لتفسير نماذج تعلُّم الآلة.
توافق المقيّمين
هو مقياس لعدد المرات التي يتفق فيها المقيمون البشريون عند تنفيذ مهمة ما. إذا لم يتّفق المقيّمون، قد يكون من الضروري تحسين تعليمات المهمة. يُعرف هذا المقياس أيضًا باسم اتفاقية بين المعلقين أو موثوقية التقييم بين المقيمين. يُرجى الاطّلاع أيضًا على معامل كابا الخاص بـ "كوهين"، وهو أحد مقاييس الاتفاق بين المقيمين الأكثر شيوعًا.
لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الفئوية: المشاكل الشائعة في "دورة تدريبية مكثّفة حول تعلُّم الآلة".
مقياس التقاطع على الاتحاد (IoU)
تقاطع مجموعتين مقسومًا على اتحادهما في مهام رصد الصور باستخدام تعلُّم الآلة، يتم استخدام مقياس IoU لقياس دقة المربع المحيط الذي توقّعه النموذج مقارنةً بالمربع المحيط الذي تم تحديده مسبقًا. في هذه الحالة، تكون نسبة IoU بين المربّعين هي النسبة بين المساحة المتداخلة والمساحة الإجمالية، وتتراوح قيمتها بين 0 (لا يوجد تداخل بين مربّع الحدود المتوقّع ومربّع الحدود الحقيقي) و1 (يتطابق مربّع الحدود المتوقّع ومربّع الحدود الحقيقي تمامًا في الإحداثيات).
على سبيل المثال، في الصورة أدناه:
- يتم تحديد المربّع المحيط المتوقّع (الإحداثيات التي تحدّد المكان الذي يتوقّع النموذج أن يكون فيه المنضدة الليلية في اللوحة) باللون الأرجواني.
- تم تحديد المربّع المحيط بالبيانات الأساسية (الإحداثيات التي تحدّد مكان وجود المنضدة الليلية في اللوحة) باللون الأخضر.
في هذه الحالة، يبلغ تقاطع مربّعات الحدود الخاصة بالتوقّع والحقيقة الأساسية (أسفل اليمين) 1، ويبلغ اتحاد مربّعات الحدود الخاصة بالتوقّع والحقيقة الأساسية (أسفل اليسار) 7، وبالتالي تكون قيمة IoU هي \(\frac{1}{7}\).
IoU
اختصار تقاطع على اتحاد
مصفوفة المنتجات
في أنظمة الاقتراحات، تكون مصفوفة متجهات التضمين ناتجة عن تحليل المصفوفات الذي يتضمّن إشارات كامنة حول كل عنصر. يحتوي كل صف في مصفوفة السلع على قيمة ميزة كامنة واحدة لجميع السلع. على سبيل المثال، لنفترض أنّك تستخدم نظامًا لاقتراح الأفلام. يمثّل كل عمود في مصفوفة السلع فيلمًا واحدًا. قد تمثّل الإشارات الضمنية أنواعًا من المحتوى، أو قد تكون إشارات يصعب تفسيرها وتتضمّن تفاعلات معقّدة بين النوع والنجوم وعمر الفيلم أو عوامل أخرى.
تحتوي مصفوفة العناصر على عدد الأعمدة نفسه الذي تحتويه مصفوفة الاستهداف التي يتم تحليلها. على سبيل المثال، إذا كان لديك نظام اقتراحات أفلام يقيّم 10,000 عنوان فيلم، ستحتوي مصفوفة العناصر على 10,000 عمود.
items
في نظام الاقتراحات، تشير إلى الكيانات التي يقترحها النظام. على سبيل المثال، الفيديوهات هي السلع التي يقترحها متجر الفيديو، بينما الكتب هي السلع التي يقترحها متجر الكتب.
التكرار
تعديل واحد على مَعلمات النموذج، أي الأوزان والانحيازات، أثناء التدريب يحدّد حجم الدفعة عدد الأمثلة التي يعالجها النموذج في تكرار واحد. على سبيل المثال، إذا كان حجم الدفعة 20، سيعالج النموذج 20 مثالاً قبل تعديل المَعلمات.
عند تدريب شبكة عصبونية، تتضمّن عملية التكرار الواحدة الخطوتَين التاليتَين:
- تمريرة أمامية لتقييم الخسارة في دفعة واحدة
- عملية تمرير عكسي (الانتشار العكسي) لضبط معلَمات النموذج استنادًا إلى الخسارة ومعدّل التعلّم
يمكنك الاطّلاع على النزول التدريجي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
J
JAX
مكتبة للحوسبة على المصفوفات تجمع بين XLA (الجبر الخطي المسرَّع) والتفاضل التلقائي للحوسبة الرقمية العالية الأداء. توفّر JAX واجهة برمجة تطبيقات بسيطة وفعّالة لكتابة رموز رقمية مبرمَجة بسرعة مع عمليات تحويل قابلة للدمج. توفّر JAX ميزات مثل:
grad(التفاضل التلقائي)jit(الترجمة الفورية)vmap(التحويل التلقائي إلى رسومات متجهة أو التجميع)pmap(التوازي)
JAX هي لغة للتعبير عن عمليات تحويل الرموز الرقمية وتركيبها، وهي تشبه مكتبة NumPy في Python، ولكنها أكبر بكثير من حيث النطاق. (في الواقع، مكتبة .numpy ضمن JAX هي نسخة مكافئة وظيفيًا، ولكنها مكتوبة بالكامل من جديد من مكتبة NumPy في Python).
تُعدّ JAX مناسبة بشكل خاص لتسريع العديد من مهام تعلُّم الآلة من خلال تحويل النماذج والبيانات إلى شكل مناسب للتوازي على وحدات معالجة الرسومات ورقائق مسرّع وحدات معالجة الموتّرات .
Flax وOptax وPax والعديد من المكتبات الأخرى مستنِدة إلى بنية JAX الأساسية.
K
Keras
واجهة برمجة تطبيقات شائعة للتعلم الآلي في Python تعمل Keras على العديد من أُطر تعلُّم الآلة المعمّق، بما في ذلك TensorFlow، حيث تتوفّر باسم tf.keras.
آلات متّجهات الدعم الأساسية (KSVMs)
هي خوارزمية تصنيف تسعى إلى زيادة الفارق بين الفئات الإيجابية و الفئات السلبية من خلال ربط متجهات بيانات الإدخال بمساحة ذات أبعاد أعلى. على سبيل المثال، لنفترض أنّ لدينا مشكلة تصنيف تتضمّن مجموعة بيانات إدخال تحتوي على مئة سمة. لزيادة الهامش بين الفئات الإيجابية والسلبية إلى أقصى حد، يمكن أن تربط آلة المتجهات الداعمة المستندة إلى النواة هذه الميزات داخليًا بمساحة ذات مليون بُعد. تستخدم آلات المتجهات الداعمة المستندة إلى النواة دالة خسارة تُعرف باسم خسارة المفصلة.
النقاط الرئيسية
إحداثيات ميزات معيّنة في صورة على سبيل المثال، بالنسبة إلى نموذج التعرّف على الصور الذي يميّز أنواع الزهور، قد تكون النقاط الأساسية هي مركز كل بتلة والساق والسداة وما إلى ذلك.
التحقّق المتقاطع k-fold
خوارزمية لتوقُّع قدرة النموذج على التعميم على البيانات الجديدة. يشير k في التقسيم إلى k جزء إلى عدد المجموعات المتساوية التي تقسم إليها أمثلة مجموعة البيانات، أي أنّك تدرب نموذجك وتختبره k مرة. في كل جولة من التدريب والاختبار، تكون مجموعة مختلفة هي مجموعة الاختبار، وتصبح جميع المجموعات المتبقية مجموعة التدريب. بعد k جولة من التدريب والاختبار، يمكنك حساب المتوسط والانحراف المعياري لمقاييس الاختبار المحدّدة.
على سبيل المثال، لنفترض أنّ مجموعة البيانات تتألف من 120 مثالاً. لنفترض أيضًا أنّك قرّرت ضبط قيمة k على 4. لذلك، بعد ترتيب الأمثلة بشكل عشوائي، عليك تقسيم مجموعة البيانات إلى أربع مجموعات متساوية تضم 30 مثالاً وإجراء أربع جولات تدريب واختبار:
على سبيل المثال، قد يكون متوسط الخطأ التربيعي (MSE) المقياس الأكثر أهمية لنموذج الانحدار الخطي. لذلك، عليك إيجاد المتوسط والانحراف المعياري لمتوسط الخطأ التربيعي على مستوى جميع الجولات الأربع.
k-means
خوارزمية التجميع الشائعة التي تصنّف الأمثلة في التعلّم غير الموجّه. تنفّذ خوارزمية k-means ما يلي بشكل أساسي:
- تحدّد بشكل متكرّر أفضل k نقطة مركزية (تُعرف باسم النقاط المركزية).
- يتم تعيين كل مثال إلى أقرب نقطة مركزية. وتنتمي الأمثلة الأقرب إلى النقطة المركزية نفسها إلى المجموعة نفسها.
تختار الخوارزمية التصنيفية مواقع النقاط المركزية بهدف تقليل مربع المسافات التراكمية من كل مثال إلى أقرب نقطة مركزية.
على سبيل المثال، إليك الرسم البياني التالي الذي يوضّح العلاقة بين طول الكلب وعرضه:
إذا كانت k=3، ستحدّد الخوارزمية التصنيفية ثلاث نقاط مركزية. يتم تعيين كل مثال إلى أقرب نقطة مركزية له، ما يؤدي إلى إنشاء ثلاث مجموعات:
لنفترض أنّ مصنّعًا يريد تحديد المقاسات المثالية للسترات الصغيرة والمتوسطة والكبيرة المخصّصة للكلاب. تحدّد النقاط المركزية الثلاث متوسط الارتفاع ومتوسط العرض لكل كلب في تلك المجموعة. لذلك، من المفترض أن يستند المصنّع إلى هذه النقاط المركزية الثلاث في تحديد أحجام السترات. يُرجى العِلم أنّ مركز المجموعة ليس عادةً مثالاً في المجموعة.
توضّح الرسومات التوضيحية السابقة خوارزمية k-means للأمثلة التي تتضمّن ميزتَين فقط (الارتفاع والعرض). يُرجى العِلم أنّ الخوارزمية التصنيفية يمكنها تجميع الأمثلة في العديد من السمات.
يمكنك الاطّلاع على ما هو التجميع العنقودي بطريقة k-means؟ في دورة التجميع العنقودي للحصول على مزيد من المعلومات.
وسيط تصنيفي
خوارزمية تصنيفية مرتبطة ارتباطًا وثيقًا بخوارزمية k-means. ويكمن الفرق العملي بينهما في ما يلي:
- في خوارزمية k-means، يتم تحديد النقاط المركزية من خلال تقليل مجموع مربعات المسافة بين نقطة مركزية محتملة وكل مثال من أمثلتها.
- في خوارزمية k-median، يتم تحديد النقاط المركزية من خلال تقليل مجموع المسافة بين النقطة المركزية المرشحة وكل مثال من أمثلتها.
يُرجى العِلم أنّ تعريفات المسافة تختلف أيضًا:
- تعتمد خوارزمية k-means على المسافة الإقليدية من النقطة المركزية إلى مثال. (في بُعدَين، تعني المسافة الإقليدية استخدام نظرية فيثاغورس لاحتساب الوتر). على سبيل المثال، تكون مسافة k-means بين (2,2) و (5,-2) كما يلي:
- تعتمد طريقة k-median على مسافة مانهاتن من النقطة المركزية إلى مثال. هذه المسافة هي مجموع الفروق المطلقة في كل بُعد. على سبيل المثال، ستكون مسافة k-median بين (2,2) و (5,-2) كما يلي:
L
تسوية 0
أحد أنواع التسوية التي تعاقب العدد الإجمالي للأوزان غير الصفرية للأوزان في أحد النماذج. على سبيل المثال، سيتم فرض عقوبة أكبر على نموذج يتضمّن 11 وزنًا غير صفري مقارنةً بنموذج مشابه يتضمّن 10 أوزان غير صفرية.
يُطلق على التسوية من النوع L0 أحيانًا اسم التسوية من النوع L0-norm.
خسارة 1
دالة الخسارة التي تحسب القيمة المطلقة للفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L1 لمجموعة من خمسة أمثلة:
| القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | القيمة المطلقة للتغيير |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 3 |
| 4 | 6 | 2 |
| 9 | 8 | 1 |
| 8 = خسارة L1 | ||
يكون معدّل الخطأ L1 أقل حساسية للقيم الشاذة من معدّل الخطأ L2.
متوسط الخطأ المطلق هو متوسط خسارة 1 لكل مثال.
يمكنك الاطّلاع على الانحدار الخطي: الخسارة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
التسوية من النوع L1
أحد أنواع التسوية التي تفرض عقوبة على الأوزان بما يتناسب مع مجموع القيمة المطلقة للأوزان. يساعد التسوية من النوع L1 في خفض أوزان الميزات غير الملائمة أو التي لا صلة لها بالموضوع إلى 0 تمامًا. تتم إزالة ميزة ذات وزن 0 من النموذج بشكل فعّال.
يجب عدم الخلط بينها وبين التسوية L2.
خسارة 2
يشير ذلك المصطلح إلى دالة خسارة تحسب مربع الفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L2 لمجموعة من خمسة أمثلة:
| القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | مربع دلتا |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 9 |
| 4 | 6 | 4 |
| 9 | 8 | 1 |
| 16 = خسارة L2 | ||
بسبب التربيع، يؤدي مقياس L2 إلى تضخيم تأثير القيم الشاذة. أي أنّ دالة الخسارة L2 تتأثر بشكل أكبر بالتوقعات غير الدقيقة مقارنةً بدالة الخسارة L1. على سبيل المثال، سيكون معدّل فقدان الحزمة L1 للحزمة السابقة 8 بدلاً من 16. لاحظ أنّ قيمة متطرفة واحدة تمثّل 9 من أصل 16.
تستخدم نماذج الانحدار عادةً دالة الخسارة L2 كدالة خسارة.
متوسط الخطأ التربيعي هو متوسط خسارة 2 لكل مثال. الخطأ التربيعي هو اسم آخر للخطأ من النوع L2.
يمكنك الاطّلاع على الانحدار اللوجستي: الخسارة والتسوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
التسوية من النوع L2
أحد أنواع التسوية التي تعاقب الأوزان بما يتناسب مع مجموع مربعات الأوزان. تساعد عملية التسوية L2 في تقريب أوزان القيم الشاذة (التي تتضمّن قيمًا موجبة عالية أو قيمًا سالبة منخفضة) إلى 0، ولكن ليس تمامًا إلى 0. تبقى الميزات التي تتضمّن قيمًا قريبة جدًا من 0 في النموذج، ولكنّها لا تؤثّر كثيرًا في التوقّعات التي يقدّمها النموذج.
يؤدي التعديل المنتظم من النوع L2 دائمًا إلى تحسين التعميم في النماذج الخطية.
يختلف عن التسوية 1.
لمزيد من المعلومات، يمكنك الاطّلاع على التدريب الزائد: التسوية L2 في "دورة مكثّفة حول تعلّم الآلة".
التصنيف
في تعلُّم الآلة الموجَّه، يمثّل هذا المصطلح جزء "الإجابة" أو "النتيجة" في مثال.
يتألف كل مثال مصنّف من سمات واحدة أو أكثر وتصنيف. على سبيل المثال، في مجموعة بيانات مخصّصة لرصد المحتوى غير المرغوب فيه، من المحتمل أن يكون التصنيف إما "محتوى غير مرغوب فيه" أو "ليس محتوًى غير مرغوب فيه". في مجموعة بيانات خاصة بهطول الأمطار، قد يكون التصنيف هو كمية الأمطار التي هطلت خلال فترة زمنية معيّنة.
لمزيد من المعلومات، اطّلِع على مقالة التعلم الخاضع للإشراف في "مقدمة عن تعلُّم الآلة".
مثال مصنّف
مثال يتضمّن ميزات واحدة أو أكثر وتصنيفًا على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة مصنّفة من نموذج لتقييم المنازل، ويتضمّن كل مثال ثلاث سمات وتصنيفًا واحدًا:
| عدد غرف النوم | عدد الحمّامات | عمر المنزل | سعر المنزل (التصنيف) |
|---|---|---|---|
| 3 | 2 | 15 | $345,000 |
| 2 | 1 | 72 | 179,000 دولار أمريكي |
| 4 | 2 | 34 | $392,000 |
في تعلُّم الآلة الموجَّه، يتم تدريب النماذج على أمثلة مصنَّفة، ويتم إجراء توقعات على أمثلة غير مصنَّفة.
قارِن بين الأمثلة المصنّفة والأمثلة غير المصنّفة.
لمزيد من المعلومات، اطّلِع على مقالة التعلم الخاضع للإشراف في "مقدمة عن تعلُّم الآلة".
تسريب التصنيفات
عيب في تصميم النموذج، حيث تكون السمة بديلاً عن التصنيف. على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتنبأ بما إذا كان أحد العملاء المحتملين سيشتري منتجًا معيّنًا أم لا.
لنفترض أنّ إحدى سمات النموذج هي قيمة منطقية باسم
SpokeToCustomerAgent. لنفترض أيضًا أنّه لا يتم تعيين وكيل خدمة العملاء إلا بعد أن يشتري العميل المحتمل المنتج فعليًا. أثناء التدريب، سيتعلّم النموذج بسرعة العلاقة بين SpokeToCustomerAgent والتصنيف.
لمزيد من المعلومات، اطّلِع على مراقبة خطوط النقل في "دورة مكثّفة عن تعلّم الآلة".
lambda
مرادف معدل التسوية
Lambda هو مصطلح له عدة معانٍ. نركّز هنا على تعريف المصطلح ضمن التسوية.
LaMDA (نموذج لغوي لتطبيقات المحادثة)
نموذج لغوي كبير يستند إلى Transformer، طوّرته Google وتم تدريبه على مجموعة بيانات كبيرة من الحوارات، ويمكنه إنشاء ردود واقعية.
LaMDA: تقنية المحادثات المبتكرة تقدّم نظرة عامة.
المعالم
مرادف النقاط الرئيسية
نموذج لغوي
النموذج هو أداة تقدّر احتمالية ظهور رمز مميّز أو تسلسل من الرموز المميزة في تسلسل أطول من الرموز المميزة.
يمكنك الاطّلاع على ما هو نموذج اللغة؟ في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.
النموذج اللغوي الكبير
كحدّ أدنى، يجب أن يتضمّن النموذج اللغوي عددًا كبيرًا جدًا من المَعلمات. بشكل غير رسمي، أي نموذج لغة مستند إلى Transformer، مثل Gemini أو GPT
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".
وقت الاستجابة
الوقت الذي يستغرقه النموذج لمعالجة الإدخال وإنشاء ردّ يستغرق إنشاء ردّ وقت استجابة طويل وقتًا أطول من إنشاء ردّ وقت استجابة قصير.
تشمل العوامل التي تؤثر في وقت الاستجابة في النماذج اللغوية الكبيرة ما يلي:
- أطوال الرموز المميزة للإدخال والإخراج
- مدى تعقيد النموذج
- البنية الأساسية التي يعمل عليها النموذج
يُعدّ تحسين وقت الاستجابة أمرًا بالغ الأهمية لإنشاء تطبيقات سريعة الاستجابة وسهلة الاستخدام.
مساحة كامنة
مرادف لمساحة التضمين
طبقة
مجموعة من الخلايا العصبية في شبكة عصبية في ما يلي ثلاثة أنواع شائعة من الطبقات:
- طبقة الإدخال، التي توفّر قيمًا لجميع المعالم
- طبقة مخفية واحدة أو أكثر، والتي تعثر على علاقات غير خطية بين السمات والتصنيف
- طبقة الإخراج، التي تقدّم التوقّع
على سبيل المثال، يوضّح الرسم التوضيحي التالي شبكة عصبية تتضمّن طبقة إدخال واحدة وطبقتَين مخفيتَين وطبقة إخراج واحدة:
في TensorFlow، الطبقات هي أيضًا دوال Python تأخذ موترات وخيارات إعداد كمدخلات وتنتج موترات أخرى كمخرجات.
Layers API (tf.layers)
واجهة برمجة تطبيقات TensorFlow لإنشاء شبكة عصبية عميقة كتركيبة من الطبقات تتيح لك واجهة Layers API إنشاء أنواع مختلفة من الطبقات، مثل:
tf.layers.Denseلطبقة مكتملة الاتصالtf.layers.Conv2Dلطبقة التفافية
تتّبع واجهة برمجة التطبيقات للطبقات اصطلاحات واجهة برمجة التطبيقات للطبقات في Keras. أي أنّه باستثناء البادئة المختلفة، تتشارك جميع الدوال في Layers API الأسماء والتوقيعات نفسها مع الدوال المقابلة لها في Keras layers API.
ورقة شجر
أي نقطة نهاية في شجرة القرارات على عكس الشرط، لا تنفّذ الورقة اختبارًا. بل إنّ الورقة هي عبارة عن توقّع محتمل. الورقة هي أيضًا العقدة الطرفية لمسار الاستنتاج.
على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاث أوراق:
يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
أداة Learning Interpretability Tool (LIT)
أداة مرئية وتفاعلية لفهم النماذج وتصوّر البيانات
يمكنك استخدام LIT مفتوحة المصدر من أجل تفسير النماذج أو عرض البيانات النصية والصور والبيانات الجدولية.
معدّل التعلّم
هو عدد ذو فاصلة عشرية يحدّد للخوارزمية لنزول التدرّج مدى قوة تعديل الأوزان والانحيازات في كل تكرار. على سبيل المثال، يؤدي معدّل التعلّم البالغ 0.3 إلى تعديل الأوزان والانحيازات بقوة أكبر بثلاث مرات من معدّل التعلّم البالغ 0.1.
معدّل التعلّم هو مَعلمة فائقة أساسية. إذا ضبطت معدّل التعلّم على قيمة منخفضة جدًا، سيستغرق التدريب وقتًا طويلاً جدًا. إذا ضبطت معدّل التعلّم على قيمة مرتفعة جدًا، سيواجه نزول التدرّج غالبًا صعوبة في الوصول إلى التقارب.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
انحدار التربيعات الأقل
نموذج انحدار خطي تم تدريبه من خلال خفض خسارة L2.
مسافة ليفنشتاين
مقياس مسافة التعديل الذي يحسب أقل عدد من عمليات الحذف والإدراج والاستبدال المطلوبة لتغيير كلمة إلى أخرى على سبيل المثال، تبلغ مسافة Levenshtein بين الكلمتَين "قلب" و "سهام" ثلاث عمليات تعديل لأنّ عمليات التعديل الثلاث التالية هي أقل عدد من التغييرات لتحويل إحدى الكلمتَين إلى الأخرى:
- heart → deart (استبدال "h" بـ "d")
- deart → dart (delete "e")
- dart → darts (insert "s")
يُرجى العِلم أنّ التسلسل السابق ليس المسار الوحيد الذي يتضمّن ثلاث تعديلات.
خطي
يشير ذلك المصطلح إلى علاقة بين متغيّرين أو أكثر يمكن تمثيلها فقط من خلال الجمع والضرب.
رسم العلاقة الخطية هو خط.
يجب أن يكون التباين غير خطّي.
النموذج الخطي
النموذج الذي يحدّد وزنًا واحدًا لكل سمة لإجراء توقّعات (تتضمّن النماذج الخطية أيضًا انحيازًا). في المقابل، تكون العلاقة بين الميزات والتوقعات في النماذج العميقة غير خطية بشكل عام.
عادةً ما يكون تدريب النماذج الخطية أسهل وأكثر قابلية للتفسير من النماذج العميقة. ومع ذلك، يمكن للنماذج العميقة التعرّف على العلاقات المعقّدة بين الميزات.
الانحدار الخطي والانحدار اللوجستي هما نوعان من النماذج الخطية.
الانحدار الخطي
نوع من نماذج تعلُّم الآلة التي ينطبق عليها ما يلي:
قارِن بين الانحدار الخطي والانحدار اللوجستي. قارِن أيضًا بين الانحدار والتصنيف.
يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
LIT
اختصار أداة تفسير التعلّم (LIT)، التي كانت تُعرف سابقًا باسم "أداة تفسير اللغة".
LLM
اختصار النموذج اللغوي الكبير
تقييمات النماذج اللغوية الكبيرة
مجموعة من المقاييس ومعايير الأداء لتقييم أداء النماذج اللغوية الكبيرة (LLM). بشكل عام، تتضمّن عمليات تقييم النماذج اللغوية الكبيرة ما يلي:
- مساعدة الباحثين في تحديد المجالات التي تحتاج فيها النماذج اللغوية الكبيرة إلى تحسين
- وهي مفيدة في مقارنة النماذج اللغوية الكبيرة المختلفة وتحديد أفضل نموذج لغوي كبير لمهمة معيّنة.
- المساعدة في ضمان أمان استخدام النماذج اللغوية الكبيرة ومراعاتها للأخلاقيات
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".
الانحدار اللوجستي
أحد أنواع نماذج الانحدار التي تتنبأ باحتمالية. تتضمّن نماذج الانحدار اللوجستي الخصائص التالية:
- التصنيف فئوي. يشير مصطلح الانحدار اللوجستي عادةً إلى الانحدار اللوجستي الثنائي، أي إلى نموذج يحسب احتمالات التصنيفات التي تتضمّن قيمتَين محتملتَين. هناك صيغة أقل شيوعًا، وهي الانحدار اللوجستي المتعدد الحدود، تحسب احتمالات التصنيفات التي تتضمّن أكثر من قيمتَين محتملتَين.
- دالة الخسارة أثناء التدريب هي الخسارة اللوغارتمية. (يمكن وضع وحدات Log Loss متعددة بالتوازي للتصنيفات التي تتضمّن أكثر من قيمتَين محتملتَين).
- يستخدم النموذج بنية خطية، وليس شبكة عصبية عميقة. ومع ذلك، ينطبق الجزء المتبقي من هذا التعريف أيضًا على النماذج العميقة التي تتنبأ بالاحتمالات للتصنيفات الفئوية.
على سبيل المثال، لنفترض نموذج انحدار لوجستي يحسب احتمالية أن تكون الرسالة الإلكترونية الواردة مرغوب فيها أو غير مرغوب فيها. أثناء الاستدلال، لنفترض أنّ النموذج يتوقّع القيمة 0.72. وبالتالي، يقدّر النموذج ما يلي:
- فرصة بنسبة% 72 أن تكون الرسالة الإلكترونية غير مرغوب فيها
- هناك احتمال بنسبة% 28 ألّا تكون الرسالة الإلكترونية غير مرغوب فيها.
يستخدم نموذج الانحدار اللوجستي بنية من خطوتَين على النحو التالي:
- ينشئ النموذج قيمة توقّع أولية (y') من خلال تطبيق دالة خطية على ميزات الإدخال.
- يستخدم النموذج هذا التوقّع الأوّلي كإدخال إلى دالة سينية، ما يؤدي إلى تحويل التوقّع الأوّلي إلى قيمة بين 0 و1، باستثناء هذين الرقمين.
كما هو الحال مع أي نموذج انحدار، يتنبأ نموذج الانحدار اللوجستي برقم. ومع ذلك، يصبح هذا الرقم عادةً جزءًا من نموذج تصنيف ثنائي على النحو التالي:
- إذا كان الرقم المتوقّع أكبر من حد التصنيف، يتوقّع نموذج التصنيف الثنائي الفئة الإيجابية.
- إذا كان الرقم المتوقّع أقل من حد التصنيف، يتوقّع نموذج التصنيف الثنائي الفئة السلبية.
لمزيد من المعلومات، يمكنك الاطّلاع على الانحدار اللوجستي في "دورة مكثّفة عن تعلّم الآلة".
لوجيت
متّجه التوقّعات الأولية (غير المعدَّلة) التي ينشئها نموذج التصنيف، والتي يتم عادةً تمريرها إلى دالة تعديل. إذا كان النموذج يحلّ مشكلة تصنيف متعدد الفئات، تصبح القيم اللوغاريتمية عادةً إدخالاً إلى دالة softmax. تنشئ دالة softmax بعد ذلك متجهًا من الاحتمالات (المعدَّلة) يتضمّن قيمة واحدة لكل فئة محتملة.
الخسارة اللوغاريتمية
دالة الخسارة المستخدَمة في الانحدار اللوجستي الثنائي.
يمكنك الاطّلاع على الانحدار اللوجستي: الخسارة والتسوية في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
لوغاريتم فرص الأفضلية
يشير ذلك المصطلح إلى لوغاريتم يوضِّح معدّل احتمالية وقوع حدث معيّن.
الذاكرة الطويلة المدى والقصيرة المدى (LSTM)
نوع من الخلايا في شبكة عصبية متكررة تُستخدَم لمعالجة تسلسلات البيانات في تطبيقات مثل التعرّف على الكتابة اليدوية والترجمة الآلية والتعليق على الصور. تعالج شبكات الذاكرة الطويلة والقصيرة المدى مشكلة تضاؤل التدرّج التي تحدث عند تدريب الشبكات العصبية المتكرّرة بسبب تسلسلات البيانات الطويلة من خلال الاحتفاظ بالسجلّ في حالة ذاكرة داخلية استنادًا إلى الإدخال الجديد والسياق من الخلايا السابقة في الشبكة العصبية المتكرّرة.
LoRA
اختصار Low-Rank Adaptability
خسارة
أثناء تدريب نموذج خاضع للإشراف، يتم قياس مدى بُعد توقّع النموذج عن التصنيف.
تحسب دالة الخسارة الخسارة.
يمكنك الاطّلاع على الانحدار الخطي: الخسارة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
موقع تجميع الخسائر
هي نوع من خوارزميات تعلُّم الآلة التي تحسّن أداء نموذج من خلال الجمع بين توقّعات نماذج متعددة واستخدام هذه التوقّعات لتقديم توقّع واحد. نتيجةً لذلك، يمكن أن يقلّل مجمّع الخسائر من تباين التوقعات ويحسّن دقة التوقعات.
منحنى الخسارة
رسم بياني للخسارة كدالة لعدد التكرارات. يعرض الرسم البياني التالي منحنى خسارة نموذجيًا:
يمكن أن تساعدك منحنيات الخسارة في تحديد ما إذا كان نموذجك يتقارب أو يفرط في التكيّف.
يمكن أن ترسم منحنيات الخسارة جميع أنواع الخسارة التالية:
يمكنك الاطّلاع أيضًا على منحنى التعميم.
يمكنك الاطّلاع على التدريب الزائد: تفسير منحنيات الخسارة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
دالة الخسارة
أثناء التدريب أو الاختبار، يتم استخدام دالة رياضية تحسب مقدار الخطأ في دفعة من الأمثلة. تعرض دالة الخسارة قيمة خسارة أقل للنماذج التي تقدّم توقّعات جيدة مقارنةً بالنماذج التي تقدّم توقّعات سيئة.
عادةً ما يكون الهدف من التدريب هو تقليل الخسارة التي تعرضها دالة الخسارة.
تتوفّر العديد من أنواع دوال الخسارة المختلفة. اختَر دالة الخسارة المناسبة لنوع النموذج الذي تنشئه. على سبيل المثال:
- فقدان L2 (أو متوسط الخطأ التربيعي) هو دالة الفقدان للانحدار الخطي.
- الخسارة اللوغاريتمية هي دالة الخسارة الخاصة بـ الانحدار اللوجستي.
سطح الخسارة
رسم بياني للأوزان مقابل فقدان الوزن تهدف النزول التدريجي إلى العثور على الأوزان التي يكون فيها سطح الخسارة عند الحد الأدنى المحلي.
تأثير فقدان التركيز في منتصف المحادثة
ميل النموذج اللغوي الكبير إلى استخدام المعلومات من بداية نافذة السياق الطويلة ونهايتها بشكل أكثر فعالية من المعلومات الواردة في المنتصف. أي، عند توفّر سياق طويل، يؤدي تأثير "الضياع في المنتصف" إلى أن تكون الدقة:
- مرتفعة نسبيًا عندما تكون المعلومات ذات الصلة لتكوين رد قريبة من بداية السياق أو نهايته
- منخفضة نسبيًا عندما تكون المعلومات ذات الصلة لتكوين رد في منتصف السياق
هذا المصطلح مستوحى من ورقة بحثية بعنوان Lost in the Middle: How Language Models Use Long Contexts.
Low-Rank Adaptability (LoRA)
أسلوب فعّال من حيث عدد المَعلمات لعملية الضبط الدقيق، حيث يتم "تجميد" الأوزان المدربة مسبقًا للنموذج (بحيث لا يمكن تعديلها بعد ذلك)، ثم يتم إدراج مجموعة صغيرة من الأوزان القابلة للتدريب في النموذج. تكون مجموعة الأوزان القابلة للتدريب هذه (المعروفة أيضًا باسم "مصفوفات التعديل") أصغر بكثير من النموذج الأساسي، وبالتالي تكون عملية تدريبها أسرع بكثير.
توفّر LoRA المزايا التالية:
- يحسّن جودة توقّعات النموذج للمجال الذي يتم فيه تطبيق الضبط الدقيق.
- يتم الضبط بشكل أسرع من التقنيات التي تتطلّب ضبط جميع مَعلمات النموذج.
- يقلّل هذا الخيار من تكلفة الاستدلال الحسابية من خلال إتاحة عرض متزامن لعدة نماذج متخصصة تشترك في النموذج الأساسي نفسه.
LSTM
اختصار الذاكرة الطويلة والقصيرة المدى
M
تعلُم الآلة
برنامج أو نظام يدرّب نموذجًا من البيانات التي يتم إدخالها. يمكن للنموذج المدرَّب أن يقدّم توقّعات مفيدة من بيانات جديدة (لم يسبق رؤيتها) مأخوذة من التوزيع نفسه المستخدَم لتدريب النموذج.
يشير مصطلح "تعلُّم الآلة" أيضًا إلى مجال الدراسة المعني بهذه البرامج أو الأنظمة.
يمكنك الاطّلاع على دورة مقدّمة عن تعلُّم الآلة للحصول على مزيد من المعلومات.
الترجمة الآلية
استخدام برنامج (عادةً، نموذج تعلُّم آلة) لتحويل نص من لغة بشرية إلى أخرى، مثلاً من الإنجليزية إلى اليابانية
الفئة الأكبر
التصنيف الأكثر شيوعًا في مجموعة بيانات غير متوازنة الفئات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 99% من التصنيفات السلبية و1% من التصنيفات الإيجابية، تكون التصنيفات السلبية هي الفئة الأكبر.
التباين مع الفئة الأقلية
يمكنك الاطّلاع على مجموعات البيانات: مجموعات البيانات غير المتوازنة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
عملية اتخاذ القرار في ماركوف (MDP)
رسم بياني يمثّل نموذج اتّخاذ القرار حيث يتم اتّخاذ القرارات (أو الإجراءات) لتصفّح سلسلة من الحالات بافتراض أنّ خاصية ماركوف صحيحة. في التعلّم التعزيزي، تؤدي عمليات الانتقال بين الحالات إلى عرض مكافأة عددية.
خاصية ماركوف
هي خاصية لبعض البيئات، حيث يتم تحديد عمليات الانتقال بين الحالات بشكل كامل من خلال المعلومات الضمنية في الحالة الحالية وإجراء الوكيل.
نموذج لغوي مخفي
نموذج لغوي يتوقّع احتمالية أن تملأ الرموز المميزة المرشّحة الفراغات في تسلسل. على سبيل المثال، يمكن لنموذج لغة مخفي حساب احتمالات الكلمات المرشّحة لاستبدال الشرطة السفلية في الجملة التالية:
عاد ____ في القبعة.
تستخدم المراجع عادةً السلسلة "MASK" بدلاً من الشرطة السفلية. على سبيل المثال:
عاد "القناع" في القبعة.
معظم نماذج اللغات الحديثة التي تستخدم الإخفاء هي ثنائية الاتجاه.
math-pass@k
مقياس لتحديد دقة النموذج اللغوي الكبير في حلّ مسألة رياضية خلال K محاولة على سبيل المثال، يقيس مقياس math-pass@2 قدرة النموذج اللغوي الكبير على حلّ المسائل الرياضية في محاولتَين. تشير دقة 0.85 في math-pass@2 إلى أنّ النموذج اللغوي الكبير تمكّن من حلّ المسائل الرياضية بنسبة% 85 من المرات خلال محاولتَين.
مقياس math-pass@k مطابق لمقياس pass@k، إلا أنّ مصطلح math-pass@k يُستخدم تحديدًا لتقييم الرياضيات.
matplotlib
تفكيك المصفوفة
في الرياضيات، هي آلية للعثور على المصفوفات التي يكون ناتج ضربها النقطي مقاربًا لمصفوفة مستهدَفة.
في أنظمة التوصية، تحتوي مصفوفة الاستهداف غالبًا على تقييمات المستخدمين للبنود. على سبيل المثال، قد تبدو مصفوفة الاستهداف لنظام اقتراحات الأفلام على النحو التالي، حيث تمثّل الأعداد الصحيحة الموجبة تقييمات المستخدمين، ويعني الرقم 0 أنّ المستخدم لم يقيّم الفيلم:
| الدار البيضاء | The Philadelphia Story | Black Panther | المرأة المعجزة | Pulp Fiction | |
|---|---|---|---|---|---|
| مستخدم 1 | 5.0 | 3 | 0.0 | 2.0 | 0.0 |
| مستخدم 2 | 4.0 | 0.0 | 0.0 | 1 | 5.0 |
| مستخدم 3 | 3 | 1 | 4.0 | 5.0 | 0.0 |
يهدف نظام اقتراحات الأفلام إلى التنبؤ بتقييمات المستخدمين للأفلام التي لم يتم تقييمها. على سبيل المثال، هل سيعجب المستخدم 1 بفيلم Black Panther؟
أحد الأساليب التي تتّبعها الأنظمة لتقديم محتوى مقترح هو استخدام تحليل المصفوفات لإنشاء المصفوفتَين التاليتَين:
- مصفوفة المستخدمين، وهي عبارة عن عدد المستخدمين مضروبًا في عدد سمات التضمين.
- مصفوفة عناصر، يتم تحديد شكلها على أنّه عدد سمات التضمين X عدد العناصر.
على سبيل المثال، يمكن أن يؤدي استخدام تحليل المصفوفات إلى الحصول على مصفوفة المستخدمين ومصفوفة المنتجات التالية:
User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5
يؤدي ضرب مصفوفة المستخدم في مصفوفة العناصر إلى إنشاء مصفوفة توصيات لا تحتوي على تقييمات المستخدمين الأصلية فحسب، بل تتضمّن أيضًا توقعات للأفلام التي لم يشاهدها كل مستخدم. على سبيل المثال، ضع في اعتبارك تقييم المستخدم 1 لفيلم كازابلانكا، والذي كان 5.0. من المفترض أن يكون ناتج ضرب المنتج المقابل لتلك الخلية في مصفوفة الاقتراحات حوالي 5.0، وهو كذلك:
(1.1 * 0.9) + (2.3 * 1.7) = 4.9والأهم من ذلك، هل سيعجب المستخدم 1 فيلم Black Panther؟ يؤدي أخذ ناتج الضرب النقطي المقابل للصف الأول والعمود الثالث إلى الحصول على تقييم متوقّع يبلغ 4.3:
(1.1 * 1.4) + (2.3 * 1.2) = 4.3تؤدي عملية تحليل المصفوفة عادةً إلى إنشاء مصفوفة مستخدمين ومصفوفة عناصر، تكونان معًا أكثر إحكامًا بكثير من المصفوفة المستهدَفة.
MBPP
اختصار Mostly Basic Python Problems
متوسّط الخطأ المطلق (MAE)
متوسط الخسارة لكل مثال عند استخدام L1 loss احسب متوسّط الخطأ المطلق على النحو التالي:
- احسب خسارة L1 لمجموعة.
- قسِّم خسارة L1 على عدد الأمثلة في المجموعة.
على سبيل المثال، لنفترض أنّنا نريد حساب خسارة L1 على المجموعة التالية المكوّنة من خمسة أمثلة:
| القيمة الفعلية للمثال | القيمة المتوقّعة للنموذج | الخسارة (الفرق بين القيمة الفعلية والقيمة المتوقّعة) |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 3 |
| 4 | 6 | 2 |
| 9 | 8 | 1 |
| 8 = خسارة L1 | ||
إذًا، قيمة L1 هي 8 وعدد الأمثلة هو 5. وبالتالي، فإنّ متوسّط الخطأ المطلق هو:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
قارِن بين متوسط الخطأ المطلق ومتوسط الخطأ التربيعي وجذر متوسط الخطأ التربيعي.
متوسط الدقة عند k (mAP@k)
المتوسط الإحصائي لكل نتائج متوسط الدقة عند k في مجموعة بيانات التحقّق. يُستخدم متوسط الدقة عند k لتقييم جودة المحتوى المقترح الذي يقدّمه نظام التوصية.
على الرغم من أنّ عبارة "المتوسط الحسابي" تبدو مكرّرة، إلا أنّ اسم المقياس مناسب. ففي النهاية، يعثر هذا المقياس على متوسط قيم متوسط الدقة عند k المتعددة.
متوسط الخطأ التربيعي (MSE)
متوسط الخسارة لكل مثال عند استخدام L2 loss احسب متوسط الخطأ التربيعي على النحو التالي:
- احسب خسارة L2 لمجموعة.
- قسِّم خسارة L2 على عدد الأمثلة في المجموعة.
على سبيل المثال، لنفترض أنّك تريد حساب الخسارة في المجموعة التالية المكوّنة من خمسة أمثلة:
| القيمة الفعلية | توقّعات النموذج | فقدان البيانات | الخسارة التربيعية |
|---|---|---|---|
| 7 | 6 | 1 | 1 |
| 5 | 4 | 1 | 1 |
| 8 | 11 | 3 | 9 |
| 4 | 6 | 2 | 4 |
| 9 | 8 | 1 | 1 |
| 16 = خسارة L2 | |||
وبالتالي، يكون متوسط الخطأ التربيعي كما يلي:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
متوسط الخطأ التربيعي هو محسِّن شائع للتدريب، خاصةً في الانحدار الخطي.
قارِن بين متوسط الخطأ التربيعي ومتوسط الخطأ المطلق وجذر متوسط الخطأ التربيعي.
تستخدم TensorFlow Playground متوسط الخطأ التربيعي لاحتساب قيم الخسارة.
شبكة متداخلة
في البرمجة المتوازية لتعلُّم الآلة، يشير هذا المصطلح إلى عملية ربط البيانات والنموذج بشرائح TPU، وتحديد كيفية تقسيم هذه القيم أو تكرارها.
الشبكة هي مصطلح مُحمّل بشكل زائد يمكن أن يعني أيًا مما يلي:
- تخطيط فعلي لشرائح TPU
- بنية منطقية مجرّدة لتحديد كيفية ربط البيانات والنموذج بشرائح TPU.
في كلتا الحالتين، يتم تحديد الشبكة على أنّها شكل.
التعلم الفائق
مجموعة فرعية من تعلُّم الآلة تكتشف خوارزمية تعلُّم أو تحسّنها. يمكن أن يهدف نظام التعلّم الفائق أيضًا إلى تدريب نموذج لتعلُّم مهمة جديدة بسرعة من كمية صغيرة من البيانات أو من الخبرة المكتسبة في المهام السابقة. تحاول خوارزميات التعلّم الفائق بشكل عام تحقيق ما يلي:
- تحسين الميزات المصمَّمة يدويًا أو التعرّف عليها (مثل أداة تهيئة أو أداة تحسين)
- أن تكون أكثر كفاءة في استخدام البيانات والحوسبة
- تحسين التعميم
يرتبط التعلّم الفائق بالتعلّم ببضع فُرَص.
المقياس
إحصاء يهمّك
الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.
Metrics API (tf.metrics)
واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، تحدّد tf.metrics.accuracy
عدد المرّات التي تتطابق فيها توقّعات النموذج مع التصنيفات.
دفعة صغيرة
مجموعة فرعية صغيرة يتم اختيارها عشوائيًا من دفعة تتم معالجتها في تكرار واحد. يتراوح حجم الدفعة في الدفعة المصغّرة عادةً بين 10 و1,000 مثال.
على سبيل المثال، لنفترض أنّ مجموعة التدريب الكاملة (الدفعة الكاملة) تتألف من 1,000 مثال. لنفترض أيضًا أنّك ضبطت حجم الدفعة لكل دفعة صغيرة على 20. لذلك، تحدّد كل تكرار مقدار الخسارة في 20 مثالاً عشوائيًا من بين 1,000 مثال، ثم تعدّل الأوزان والانحيازات وفقًا لذلك.
من الأسهل بكثير حساب الخسارة على مجموعة مصغّرة من البيانات مقارنةً بحساب الخسارة على جميع الأمثلة في المجموعة الكاملة.
يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نزول متدرّج عشوائي ضمن دفعة صغيرة
خوارزمية النزول المتدرّج التي تستخدم دُفعات صغيرة. وبعبارة أخرى، يقدّر النزول المتدرّج العشوائي ضمن دفعة صغيرة التدرّج استنادًا إلى مجموعة فرعية صغيرة من بيانات التدريب. تستخدم طريقة النزول المتدرّج العشوائي العادية دفعة صغيرة بحجم 1.
دالة الخسارة الدنيا القصوى
هي دالة خسارة لشبكات الخصومة التوليدية، تستند إلى الإنتروبيا المتقاطعة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.
تم استخدام دالة الخسارة Minimax في الورقة البحثية الأولى لوصف الشبكات التوليدية الخصومية.
يمكنك الاطّلاع على دوالّ الخسارة في دورة الشبكات الخصومية التوليدية للحصول على مزيد من المعلومات.
فئة الأقلية
التصنيف الأقل شيوعًا في مجموعة بيانات غير متوازنة على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على% 99 من التصنيفات السلبية و% 1 من التصنيفات الإيجابية، ستكون التصنيفات الإيجابية هي الفئة الأقلية.
التباين مع الفئة الأكبر
يمكنك الاطّلاع على مجموعات البيانات: مجموعات البيانات غير المتوازنة في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
mixture of experts
هي طريقة تهدف إلى زيادة كفاءة الشبكة العصبية من خلال استخدام مجموعة فرعية فقط من مَعلماتها (المعروفة باسم الخبير) لمعالجة رمز أو مثال معيّن. توجّه شبكة البوابة كل رمز مميز أو مثال إلى الخبراء المناسبين.
للاطّلاع على التفاصيل، يُرجى الرجوع إلى إحدى الورقتَين التاليتَين:
- الشبكات العصبونية الكبيرة جدًا: طبقة "مزيج الخبراء" ذات البوابات المتفرقة
- Mixture-of-Experts مع توجيه Expert Choice
تعلُّم الآلة
اختصار تعلُّم الآلة
MMIT
الاختصار الخاص بـ النماذج المتعددة الوسائط التي تم ضبطها وفقًا للتعليمات
MNIST
مجموعة بيانات متاحة للجميع تم تجميعها بواسطة LeCun وCortes وBurges وتحتوي على 60,000 صورة، تعرض كل صورة كيف كتب الإنسان يدويًا رقمًا معيّنًا من 0 إلى 9. يتم تخزين كل صورة كمصفوفة 28x28 من الأعداد الصحيحة، حيث يمثل كل عدد صحيح قيمة تدرج الرمادي بين 0 و255، بما في ذلك هذين الرقمين.
MNIST هي مجموعة بيانات أساسية لتعلُّم الآلة، وغالبًا ما تُستخدم لاختبار أساليب جديدة لتعلُّم الآلة. لمزيد من التفاصيل، يُرجى الاطّلاع على قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد.
النمط
فئة بيانات ذات مستوى عالٍ على سبيل المثال، الأرقام والنصوص والصور والفيديوهات والمقاطع الصوتية هي خمسة أنواع مختلفة من البيانات.
نموذج
بشكل عام، أي صيغة رياضية تعالج البيانات المدخلة وتعرض الناتج. بعبارة أخرى، النموذج هو مجموعة المَعلمات والبنية اللازمة لنظام ما من أجل إجراء التوقعات. في تعلُّم الآلة الموجَّه، يتلقّى النموذج مثالاً كمدخل ويستنتج توقّعًا كمخرج. تختلف النماذج بعض الشيء ضمن تعلُّم الآلة الموجَّه. على سبيل المثال:
- يتألف نموذج الانحدار الخطي من مجموعة من الأوزان والانحياز.
- يتألف نموذج الشبكة العصبونية مما يلي:
- مجموعة من الطبقات المخفية، تحتوي كل منها على عصبون واحد أو أكثر
- الأوزان والانحياز المرتبط بكل عصبون
- يتألف نموذج شجرة القرارات مما يلي:
- شكل الشجرة، أي النمط الذي يتم فيه ربط الشروط والأوراق.
- الشروط والإجازات
يمكنك حفظ نموذج أو استعادته أو إنشاء نُسخ منه.
تؤدي عملية تعلُّم الآلة غير الموجَّه أيضًا إلى إنشاء نماذج، وهي عادةً عبارة عن دالة يمكنها ربط مثال إدخال بالمجموعة الأنسب.
سعة النموذج
مدى تعقيد المشاكل التي يمكن أن يتعلّمها النموذج وكلما زادت درجة تعقيد المشاكل التي يمكن أن يتعلّمها النموذج، زادت قدرته. تزداد سعة النموذج عادةً مع عدد مَعلمات النموذج. للحصول على تعريف رسمي لقدرة نموذج التصنيف، يُرجى الاطّلاع على سمة VC.
التسلسل الهرمي للنماذج
نظام يختار النموذج المثالي لاستعلام استنتاج معيّن.
لنفترض أنّ لدينا مجموعة من النماذج تتراوح بين نماذج كبيرة جدًا (تتضمّن الكثير من المَعلمات) ونماذج أصغر بكثير (تتضمّن عددًا أقل بكثير من المَعلمات). تستهلك النماذج الكبيرة جدًا موارد حوسبة أكبر في وقت الاستدلال مقارنةً بالنماذج الأصغر. ومع ذلك، يمكن للنماذج الكبيرة جدًا عادةً استنتاج طلبات أكثر تعقيدًا من النماذج الأصغر. يحدّد التسلسل الهرمي للنماذج مدى تعقيد طلب الاستنتاج، ثم يختار النموذج المناسب لتنفيذ الاستنتاج. الهدف الأساسي من استخدام النماذج المتتالية هو تقليل تكاليف الاستدلال من خلال اختيار نماذج أصغر بشكل عام، واختيار نموذج أكبر للاستعلامات الأكثر تعقيدًا فقط.
لنفترض أنّ نموذجًا صغيرًا يعمل على هاتف، وأنّ إصدارًا أكبر من هذا النموذج يعمل على خادم بعيد. يؤدي تسلسل النماذج الجيد إلى خفض التكلفة ووقت الاستجابة من خلال السماح للنموذج الأصغر بمعالجة الطلبات البسيطة واستدعاء النموذج البعيد فقط لمعالجة الطلبات المعقّدة.
يمكنك الاطّلاع أيضًا على موجه النماذج.
التوازي على مستوى النموذج
طريقة لتوسيع نطاق التدريب أو الاستدلال من خلال وضع أجزاء مختلفة من نموذج واحد على أجهزة مختلفة. تتيح ميزة "التوازي بين النماذج" استخدام نماذج كبيرة جدًا لا يمكن استيعابها على جهاز واحد.
لتنفيذ التوازي بين النماذج، يقوم النظام عادةً بما يلي:
- تقسيم النموذج إلى أجزاء أصغر
- توزيع تدريب هذه الأجزاء الأصغر على معالِجات متعددة يدرّب كل معالج جزءًا خاصًا به من النموذج.
- يجمع النتائج لإنشاء نموذج واحد.
يؤدي التوازي بين النماذج إلى إبطاء عملية التدريب.
اطّلِع أيضًا على التوازي بين البيانات.
نموذج جهاز التوجيه
الخوارزمية التي تحدّد النموذج المثالي للاستدلال في النماذج المتتالية عادةً ما يكون موجّه النماذج نموذجًا لتعلُّم الآلة يتعلّم تدريجيًا كيفية اختيار أفضل نموذج لمدخل معيّن. ومع ذلك، قد يكون موجّه النماذج في بعض الأحيان خوارزمية أبسط لا تستند إلى تعلُّم الآلة.
تدريب النموذج
عملية تحديد النموذج الأفضل
MOE
اختصار مزيج الخبراء
الزخم
خوارزمية متطورة لانحدار التدرّج تعتمد فيها خطوة التعلّم ليس فقط على المشتق في الخطوة الحالية، ولكن أيضًا على مشتقات الخطوات التي سبقتها مباشرةً. تتضمّن كمية الحركة حساب متوسط متحرك مرجّح أسيًا للتدرّجات بمرور الوقت، وهو ما يشبه كمية الحركة في الفيزياء. يمنع الزخم أحيانًا التعلّم من أن يعلق في الحد الأدنى المحلي.
Mostly Basic Python Problems (MBPP)
مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في إنشاء رمز Python البرمجي يوفّر موقع Mostly Basic Python Problems حوالي 1,000 مشكلة برمجة من مصادر جماعية. يحتوي كل سؤال في مجموعة البيانات على ما يلي:
- وصف المهمة
- رمز الحلّ
- ثلاث حالات اختبار مبرمَجة
MT
اختصار الترجمة الآلية
التصنيف المتعدّد الفئات
في التعلّم المُوجّه، تكون هناك مشكلة تصنيف حيث تحتوي مجموعة البيانات على أكثر من فئتَين من التصنيفات. على سبيل المثال، يجب أن تكون التصنيفات في مجموعة بيانات Iris واحدة من الفئات الثلاث التالية:
- Iris setosa
- Iris virginica
- Iris versicolor
النموذج المدرَّب على مجموعة بيانات Iris الذي يتوقّع نوع Iris استنادًا إلى أمثلة جديدة، يؤدي عملية تصنيف متعدّد الفئات.
في المقابل، فإنّ مشاكل التصنيف التي تميّز بين فئتَين فقط هي نماذج تصنيف ثنائي. على سبيل المثال، نموذج البريد الإلكتروني الذي يتوقّع ما إذا كانت الرسالة غير مرغوب فيها أو مرغوب فيها هو نموذج تصنيف ثنائي.
في مشاكل التجميع، يشير التصنيف المتعدد الفئات إلى أكثر من مجموعتين.
يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
الانحدار اللوجستي المتعدد الفئات
استخدام الانحدار اللوجستي في مشاكل التصنيف المتعدد الفئات
الاهتمام الذاتي المتعدد الرؤوس
هي امتداد لآلية الانتباه الذاتي، وتطبّق آلية الانتباه الذاتي عدة مرات لكل موضع في تسلسل الإدخال.
قدّمت أدوات التحويل ميزة الانتباه الذاتي المتعدد الرؤوس.
النماذج المتعددة الوسائط التي تم ضبطها وفقًا للتعليمات
النموذج المضبوط على التعليمات هو نموذج يمكنه معالجة أنواع من الإدخالات تتجاوز النصوص، مثل الصور والفيديوهات والمقاطع الصوتية.
النموذج المتعدد الوسائط
نموذج تتضمّن مدخلاته أو مخرجاته أو كليهما أكثر من نوع بيانات واحد. على سبيل المثال، لنفترض أنّ هناك نموذجًا يتضمّن صورة وتعليقًا نصيًا (نوعان من البيانات) كميزات، ويعرض نتيجة تشير إلى مدى ملاءمة التعليق النصي للصورة. لذلك، تكون مدخلات هذا النموذج متعددة الوسائط ويكون الناتج أحادي الوسائط.
تصنيف متعدّد الفئات
مرادف التصنيف المتعدد الفئات
الانحدار المتعدد الحدود
مرادف الانحدار اللوجستي المتعدد الفئات
Multi-sentence Reading Comprehension (MultiRC)
مجموعة بيانات لتقييم قدرة نموذج اللغة الكبير على الإجابة عن تمارين الخيارات المتعدّدة يحتوي كل مثال في مجموعة البيانات على ما يلي:
- فقرة سياقية
- سؤال حول تلك الفقرة
- تمثّل هذه السمة إجابات متعدّدة عن السؤال. يتم تصنيف كل إجابة على أنّها صحيحة أو خاطئة. قد تكون عدة إجابات صحيحة.
على سبيل المثال:
فقرة السياق:
أرادت سوزان إقامة حفلة عيد ميلاد. اتصلت بجميع أصدقائها. لديها خمسة أصدقاء. قالت والدتها إنّ بإمكان سوزان دعوة الجميع إلى الحفلة. لم تتمكّن صديقتها الأولى من الذهاب إلى الحفلة لأنّها كانت مريضة. كانت صديقتها الثانية ستسافر. لم تكن صديقتها الثالثة متأكدة مما إذا كان والداها سيسمحان لها بذلك. قال الصديق الرابع ربما. يمكن للصديق الخامس الذهاب إلى الحفلة بالتأكيد. شعرت سوزان ببعض الحزن. في يوم الحفلة، حضر الأصدقاء الخمسة جميعًا. كان لدى كل صديق هدية لسوزان. كانت سوزان سعيدة وأرسلت إلى كل صديق بطاقة شكر في الأسبوع التالي.
السؤال: هل تعافى صديق سوزان المريض؟
إجابات متعدّدة:
- نعم، تعافت. (صحيح)
- لا (خطأ)
- نعم. (صحيح)
- لا، لم تتعافَ. (خطأ)
- نعم، كانت في حفلة سوزان. (صحيح)
MultiRC هي أحد مكوّنات مجموعة SuperGLUE.
لمزيد من التفاصيل، يُرجى الاطّلاع على Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences.
تنفيذ مهام متعددة
إحدى تقنيات تعلُّم الآلة التي يتم فيها تدريب نموذج واحد لتنفيذ عدة مهام.
يتم إنشاء نماذج المهام المتعددة من خلال التدريب على بيانات مناسبة لكل مهمة من المهام المختلفة. يتيح ذلك للنموذج تعلُّم كيفية مشاركة المعلومات بين المهام، ما يساعده في التعلّم بشكل أكثر فعالية.
النموذج المُدرَّب على مهام متعددة غالبًا ما يتمتع بقدرات تعميم محسّنة ويمكن أن يكون أكثر فعالية في التعامل مع أنواع مختلفة من البيانات.
لا
Nano
نموذج Gemini صغير نسبيًا مصمَّم للاستخدام على الأجهزة. لمزيد من التفاصيل، يمكنك الاطّلاع على مقالة Gemini Nano.
يمكنك أيضًا الاطّلاع على Pro وUltra.
فخ القيم غير المعرَّفة كأرقام
عندما يصبح أحد الأرقام في النموذج NaN أثناء التدريب، ما يؤدي إلى أن تصبح العديد من الأرقام الأخرى في النموذج أو جميعها في النهاية NaN.
NaN هو اختصار ليس رقمًا.
معالجة اللغات الطبيعية
هو مجال يهدف إلى تعليم أجهزة الكمبيوتر كيفية معالجة ما يقوله المستخدم أو يكتبه باستخدام القواعد اللغوية. تعتمد جميع عمليات معالجة اللغات الطبيعية الحديثة تقريبًا على تعلُّم الآلة.فهم اللغات الطبيعية
مجموعة فرعية من معالجة اللغات الطبيعية تحدّد نوايا ما يُقال أو يُكتب. يمكن أن تتجاوز تقنية فهم اللغات الطبيعية معالجة اللغات الطبيعية لتشمل جوانب معقّدة من اللغة، مثل السياق والسخرية والمشاعر.
فئة سالبة
في التصنيف الثنائي، يُطلق على إحدى الفئتين اسم إيجابية ويُطلق على الأخرى اسم سلبية. الفئة الإيجابية هي الشيء أو الحدث الذي يختبره النموذج، والفئة السلبية هي الاحتمال الآخر. على سبيل المثال:
- قد تكون الفئة السلبية في اختبار طبي هي "ليس ورمًا".
- قد تكون الفئة السلبية في نموذج تصنيف الرسائل الإلكترونية هي "ليست رسالة غير مرغوب فيها".
يجب أن يكون هناك تباين مع الفئة الموجبة.
أخذ العيّنات السلبية
مرادف تحليل العينات المُحتملة
Neural Architecture Search (NAS)
إحدى التقنيات التي تتيح تصميم بنية شبكة عصبية تلقائيًا. يمكن أن تقلّل خوارزميات NAS مقدار الوقت والموارد اللازمة لتدريب شبكة عصبية.
تستخدم أجهزة NAS عادةً ما يلي:
- مساحة البحث، وهي مجموعة من التصاميم المحتملة
- دالة لياقة، وهي مقياس لمدى جودة أداء بنية معينة في مهمة محددة
غالبًا ما تبدأ خوارزميات NAS بمجموعة صغيرة من التصاميم المحتملة، ثم توسّع تدريجيًا مساحة البحث كلما تعلّمت الخوارزمية المزيد عن التصاميم الفعّالة. تستند دالة اللياقة البدنية عادةً إلى أداء البنية على مجموعة تدريب، ويتم عادةً تدريب الخوارزمية باستخدام أسلوب التعلم المعزّز.
وقد أثبتت خوارزميات NAS فعاليتها في العثور على بنى عالية الأداء لمجموعة متنوعة من المهام، بما في ذلك تصنيف الصور وتصنيف النصوص والترجمة الآلية.
شبكة عصبونية
نموذج يحتوي على طبقة مخفية واحدة على الأقل. الشبكة العصبية العميقة هي نوع من الشبكات العصبية يحتوي على أكثر من طبقة مخفية واحدة. على سبيل المثال، يعرض المخطط التالي شبكة عصبية عميقة تحتوي على طبقتَين مخفيتَين.
يتصل كل عصبون في الشبكة العصبية بجميع العُقد في الطبقة التالية. على سبيل المثال، في الرسم البياني السابق، لاحظ أنّ كل عصبون من الأعصاب الثلاثة في الطبقة المخفية الأولى يرتبط بشكل منفصل بكل من العصبونين في الطبقة المخفية الثانية.
تُعرف الشبكات العصبونية التي يتم تنفيذها على أجهزة الكمبيوتر أحيانًا باسم الشبكات العصبونية الاصطناعية للتمييز بينها وبين الشبكات العصبونية الموجودة في الدماغ والجهاز العصبي.
يمكن لبعض الشبكات العصبية محاكاة العلاقات غير الخطية المعقّدة للغاية بين الميزات المختلفة والتصنيف.
راجِع أيضًا الشبكة العصبونية الالتفافية والشبكة العصبونية المتكرّرة.
لمزيد من المعلومات، يُرجى الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة".
عصبون
في تعلُّم الآلة، هي وحدة مميّزة ضمن طبقة مخفية في شبكة عصبونية. تنفّذ كل خلية عصبية الخطوتين التاليتين:
- تحسب هذه الدالة المجموع المرجّح لقيم الإدخال مضروبة في الأوزان المقابلة.
- تمرير المجموع المرجّح كإدخال إلى دالة التنشيط
تقبل الخلية العصبية في الطبقة المخفية الأولى مدخلات من قيم الميزات في طبقة الإدخال. تتلقّى العصبونات في أي طبقة مخفية بعد الطبقة الأولى مدخلات من العصبونات في الطبقة المخفية السابقة. على سبيل المثال، تقبل إحدى الخلايا العصبية في الطبقة المخفية الثانية مدخلات من الخلايا العصبية في الطبقة المخفية الأولى.
يوضّح الرسم التوضيحي التالي خليتَين عصبيتين ومدخلاتهما.
تحاكي الخلية العصبية في الشبكة العصبونية سلوك الخلايا العصبية في الدماغ وأجزاء أخرى من الجهاز العصبي.
N-gram
تسلسل مُرتب من N كلمة على سبيل المثال، بجنون هي ثنائية كلمات. بما أنّ الترتيب مهم، فإنّ أحبك بشدة هي ثنائية مختلفة عن أحبك.
| لا | أسماء هذا النوع من N-gram | أمثلة |
|---|---|---|
| 2 | ثنائي الحروف أو ثنائي الغرام | الذهاب إلى، تناول الغداء، تناول العشاء |
| 3 | ثلاثي الحروف أو 3 غرام | أكلتُ كثيرًا، وعشتُ بسعادة أبدية، ودقّت الأجراس |
| 4 | 4-gram | walk in the park, dust in the wind, the boy ate lentils |
تعتمد العديد من نماذج فهم اللغة الطبيعية على N-grams لتوقّع الكلمة التالية التي سيكتبها المستخدم أو سيقولها. على سبيل المثال، لنفترض أنّ أحد المستخدمين كتب عاشوا بسعادة. من المرجّح أن يتوقّع نموذج فهم اللغة الطبيعية المستند إلى ثلاثيات الحروف أنّ المستخدم سيكتب الكلمة بعد.
تختلف N-grams عن حقيبة الكلمات، وهي مجموعات غير مرتبة من الكلمات.
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة".
معالجة اللغات الطبيعية
اختصار معالجة اللغات الطبيعية
فهم اللغات الطبيعية
اختصار فهم اللغات الطبيعية
عقدة (شجرة القرارات)
في شجرة القرار، يمثّل أي شرط أو عقدة طرفية.
يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
عقدة (شبكة عصبونية)
عصبون في طبقة مخفية
يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.
عقدة (الرسم البياني في TensorFlow)
عملية في رسم بياني في TensorFlow
الضجيج
بشكل عام، أي شيء يحجب الإشارة في مجموعة البيانات. يمكن إدخال التشويش إلى البيانات بعدة طرق. على سبيل المثال:
- يقع المقيمون في أخطاء أثناء تصنيف المحتوى.
- يسجّل البشر والأدوات قيم السمات بشكل خاطئ أو يحذفونها.
حالة غير ثنائية
شرط يحتوي على أكثر من نتيجتَين محتملتَين. على سبيل المثال، يتضمّن الشرط غير الثنائي التالي ثلاث نتائج محتملة:
اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
غير خطي
يشير ذلك المصطلح إلى علاقة بين متغيّرَين أو أكثر لا يمكن تمثيلها فقط من خلال الجمع والضرب. يمكن تمثيل العلاقة الخطية بخط، بينما لا يمكن تمثيل العلاقة غير الخطية بخط. على سبيل المثال، لنفترض أنّ لديك نموذجين يرتبط كل منهما بميزة واحدة وتصنيف واحد. النموذج على اليمين خطي، والنموذج على اليسار غير خطي:
راجِع الشبكات العصبية: العُقد والطبقات المخفية في "دورة تدريبية مكثّفة حول تعلُّم الآلة" لتجربة أنواع مختلفة من الدوال غير الخطية.
الانحياز لعدم الإجابة
اطّلِع على الانحياز في الاختيار.
عدم الثبات
سمة تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون هذه السمة هي الوقت. على سبيل المثال، إليك بعض الأمثلة على عدم الثبات:
- يختلف عدد ملابس السباحة التي يتم بيعها في متجر معيّن حسب الموسم.
- كمية فاكهة معيّنة يتم حصادها في منطقة معيّنة تكون صفرًا خلال معظم أوقات السنة، ولكنها تكون كبيرة لفترة قصيرة.
- بسبب تغيّر المناخ، تتغيّر متوسطات درجات الحرارة السنوية.
يختلف عن الثبات.
لا توجد إجابة صحيحة واحدة (NORA)
طلب يتضمّن عدة ردود صحيحة على سبيل المثال، لا يوجد إجابة صحيحة واحدة للطلب التالي:
أريد سماع نكتة مضحكة عن الأفيال.
تقييم الردود على الطلبات التي لا تتضمّن إجابة صحيحة واحدة يكون عادةً أكثر ذاتية من تقييم الطلبات التي تتضمّن إجابة صحيحة واحدة. على سبيل المثال، يتطلّب تقييم نكتة عن الفيل طريقة منهجية لتحديد مدى طرافتها.
NORA
اختصار لا توجد إجابة صحيحة واحدة
التسوية
بشكل عام، تشير عملية تحويل النطاق الفعلي لقيم أحد المتغيّرات إلى نطاق قياسي من القيم، مثل:
- من -1 إلى +1
- من 0 إلى 1
- الدرجات المعيارية (من -3 إلى +3 تقريبًا)
على سبيل المثال، لنفترض أنّ النطاق الفعلي لقيم إحدى السمات هو 800 إلى 2,400. كجزء من هندسة الميزات، يمكنك تسوية القيم الفعلية إلى نطاق عادي، مثل -1 إلى +1.
التسوية هي مهمة شائعة في هندسة الميزات. تتدرب النماذج عادةً بشكل أسرع (وتنتج توقعات أفضل) عندما يكون لكل ميزة رقمية في متّجه الميزات النطاق نفسه تقريبًا.
راجِع أيضًا التسوية باستخدام الدرجة المعيارية.
لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الرقمية: التسوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
NotebookLM
أداة مستندة إلى Gemini تتيح للمستخدمين تحميل المستندات ثم استخدام الطلبات لطرح الأسئلة حول هذه المستندات أو تلخيصها أو تنظيمها. على سبيل المثال، يمكن لمؤلف تحميل عدة قصص قصيرة والطلب من NotebookLM العثور على المواضيع المشتركة بينها أو تحديد القصة التي يمكن تحويلها إلى فيلم ناجح.
رصد العناصر الجديدة
عملية تحديد ما إذا كان مثال جديد (مبتكر) يأتي من التوزيع نفسه الذي تأتي منه مجموعة التدريب بعبارة أخرى، بعد التدريب على مجموعة التدريب، تحدّد ميزة "رصد البيانات الجديدة" ما إذا كان المثال الجديد (أثناء الاستدلال أو أثناء التدريب الإضافي) قيمة متطرفة.
التباين مع رصد القيم الشاذة
البيانات الرقمية
الميزات الممثَّلة كأعداد صحيحة أو أرقام ذات قيم حقيقية على سبيل المثال، من المحتمل أن يعرض نموذج تقييم منزل مساحة المنزل (بالقدم المربع أو المتر المربع) كبيانات رقمية. يشير تمثيل إحدى السمات كبيانات رقمية إلى أنّ قيم السمة لها علاقة رياضية بالتصنيف. أي أنّ عدد الأمتار المربعة في المنزل يرتبط على الأرجح بعلاقة رياضية بقيمة المنزل.
لا ينبغي تمثيل جميع بيانات الأعداد الصحيحة كبيانات رقمية. على سبيل المثال،
الرموز البريدية في بعض أنحاء العالم هي أعداد صحيحة، ولكن لا يجب تمثيل الرموز البريدية
التي تتضمّن أعدادًا صحيحة كبيانات رقمية في النماذج. ويرجع ذلك إلى أنّ الرمز البريدي 20000 ليس ضعف (أو نصف) فعالية الرمز البريدي 10000. بالإضافة إلى ذلك، على الرغم من أنّ الرموز البريدية المختلفة مرتبطة بقيم مختلفة للعقارات، لا يمكننا افتراض أنّ قيم العقارات في الرمز البريدي 20000 هي ضعف قيم العقارات في الرمز البريدي 10000.
يجب تمثيل الرموز البريدية على أنّها بيانات فئوية بدلاً من ذلك.
يُطلق على الميزات الرقمية أحيانًا اسم الميزات المستمرة.
لمزيد من المعلومات، راجِع التعامل مع البيانات الرقمية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
NumPy
مكتبة رياضية مفتوحة المصدر توفّر عمليات فعّالة على الصفائف في Python، وpandas مبنية على NumPy.
O
هدف
مقياس تحاول الخوارزمية تحسينه.
دالة الهدف
الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، دالة الهدف في الانحدار الخطي هي عادةً متوسط الخطأ التربيعي. لذلك، عند تدريب نموذج انحدار خطي، يهدف التدريب إلى تقليل متوسط الخطأ التربيعي.
في بعض الحالات، يكون الهدف هو تحقيق الحد الأقصى لدالة الهدف. على سبيل المثال، إذا كانت دالة الهدف هي الدقة، يكون الهدف هو زيادة الدقة إلى أقصى حد.
يمكنك الاطّلاع أيضًا على الخسارة.
الشرط المائل
في شجرة القرار، شرط يتضمّن أكثر من ميزة. على سبيل المثال، إذا كان الارتفاع والعرض كلاهما من السمات، يكون الشرط التالي شرطًا مائلاً:
height > width
يجب التمييز بينها وبين الشرط المتوافق مع المحور.
اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
بلا إنترنت
مرادف لكلمة ثابت
الاستنتاج المؤخَّر
تشير إلى عملية إنشاء نموذج لمجموعة من التوقّعات ثم تخزين هذه التوقّعات مؤقتًا (حفظها). وبعد ذلك، يمكن للتطبيقات الوصول إلى التوقّع المستنتَج من ذاكرة التخزين المؤقت بدلاً من إعادة تشغيل النموذج.
على سبيل المثال، لنفترض أنّ هناك نموذجًا ينشئ توقّعات أحوال الطقس المحلية (توقّعات) مرة كل أربع ساعات. بعد كل عملية تشغيل للنموذج، يخزّن النظام مؤقتًا جميع توقّعات الطقس المحلية. تسترجع تطبيقات الطقس التوقعات من ذاكرة التخزين المؤقت.
يُطلق على الاستدلال غير المتصل بالإنترنت أيضًا اسم الاستدلال الثابت.
يختلف ذلك عن الاستدلال على الإنترنت. يمكنك الاطّلاع على أنظمة تعلُّم الآلة في مرحلة الإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
الترميز الأحادي
تمثيل البيانات الفئوية كمتّجه حيث:
- يتم ضبط أحد العناصر على 1.
- يتم ضبط جميع العناصر الأخرى على 0.
يُستخدَم الترميز النشط الواحد بشكل شائع لتمثيل السلاسل أو المعرّفات التي تتضمّن مجموعة محدودة من القيم المحتملة.
على سبيل المثال، لنفترض أنّ هناك ميزة فئوية معيّنة باسم Scandinavia لها خمس قيم محتملة:
- "الدنمارك"
- "السويد"
- "النرويج"
- "فنلندا"
- آيسلندا
يمكن أن يمثّل الترميز الأحادي الساخن كل قيمة من القيم الخمس على النحو التالي:
| البلد | المتّجه | ||||
|---|---|---|---|---|---|
| "الدنمارك" | 1 | 0 | 0 | 0 | 0 |
| "السويد" | 0 | 1 | 0 | 0 | 0 |
| "النرويج" | 0 | 0 | 1 | 0 | 0 |
| "فنلندا" | 0 | 0 | 0 | 1 | 0 |
| آيسلندا | 0 | 0 | 0 | 0 | 1 |
بفضل الترميز الأحادي الساخن، يمكن للنموذج التعرّف على روابط مختلفة استنادًا إلى كل بلد من البلدان الخمسة.
تمثيل ميزة كبيانات رقمية هو بديل للترميز الأحادي. للأسف، لا يُعد تمثيل البلدان الاسكندنافية رقميًا خيارًا جيدًا. على سبيل المثال، إليك التمثيل الرقمي التالي:
- "الدنمارك" هي 0
- "السويد" هي 1
- "النرويج" هي 2
- "فنلندا" هي 3
- 4 هو رمز "آيسلندا"
باستخدام الترميز الرقمي، سيفسّر النموذج الأرقام الأولية رياضيًا وسيحاول التدريب على هذه الأرقام. ومع ذلك، لا تبلغ مساحة آيسلندا ضعف مساحة النرويج (أو نصفها)، لذا سيخلص النموذج إلى بعض الاستنتاجات الغريبة.
لمزيد من المعلومات، يُرجى الاطّلاع على البيانات الفئوية: المفردات والترميز الساخن في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
إجابة صحيحة واحدة (ORA)
طلب يتضمّن إجابة صحيحة واحدة على سبيل المثال، إليك الطلب التالي:
صواب أم خطأ: كوكب زحل أكبر من كوكب المريخ.
الرد الصحيح الوحيد هو صحيح.
يختلف عن لا توجد إجابة صحيحة.
التعلُّم بفرصة واحدة
نهج لتعلُّم الآلة يُستخدَم غالبًا لتصنيف العناصر، وهو مصمَّم لتعلُّم نموذج تصنيف فعّال من مثال تدريبي واحد.
يمكنك أيضًا الاطّلاع على التعلّم ببضع فُرَص والتعلّم بدون فُرَص.
التلقين بمثال واحد
طلب يتضمّن مثالاً واحدًا يوضّح طريقة ردّ النموذج اللغوي الكبير. على سبيل المثال، يتضمّن الطلب التالي مثالاً واحدًا يوضّح للنموذج اللغوي الكبير كيفية الإجابة عن طلب بحث.
| أجزاء من طلب واحد | ملاحظات |
|---|---|
| ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة. |
| فرنسا: يورو | إليك مثالاً. |
| الهند: | طلب البحث الفعلي |
قارِن بين الطلب لمرة واحدة والمصطلحات التالية:
واحد-مقابل-الكل
في حال توفّر مشكلة تصنيف تتضمّن N فئة، يكون الحل عبارة عن نموذج تصنيف ثنائي منفصل يتضمّن N فئة، أي نموذج تصنيف ثنائي لكل نتيجة محتملة. على سبيل المثال، إذا كان لديك نموذج يصنّف الأمثلة على أنّها حيوان أو نبات أو معدن، سيقدّم حلّ "واحد مقابل الكل" نماذج التصنيف الثنائي الثلاثة المنفصلة التالية:
- حيوان أو ليس حيوانًا
- خضار أو غير خضار
- معدني مقابل غير معدني
online
مرادف لكلمة ديناميكي
الاستنتاج الحي
إنشاء توقعات عند الطلب على سبيل المثال، لنفترض أنّ تطبيقًا يمرّر بيانات إلى نموذج ويصدر طلبًا للحصول على توقع. يستجيب النظام الذي يستخدم الاستدلال على الإنترنت للطلب من خلال تشغيل النموذج (وعرض التوقّع للتطبيق).
يختلف ذلك عن الاستدلال بلا إنترنت.
يمكنك الاطّلاع على أنظمة تعلُّم الآلة في مرحلة الإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
العملية (op)
في TensorFlow، أي إجراء ينشئ Tensor أو يعدّله أو يتلفه. على سبيل المثال، ضرب المصفوفات هو عملية تتلقّى موترَين كمدخلات وتنتج موترًا واحدًا كمخرجات.
Optax
مكتبة لمعالجة التدرّجات وتحسينها في JAX تسهّل Optax عملية البحث من خلال توفير وحدات أساسية يمكن إعادة دمجها بطرق مخصّصة لتحسين النماذج المَعلمية، مثل الشبكات العصبية العميقة. تشمل الأهداف الأخرى ما يلي:
- توفير عمليات تنفيذ سهلة القراءة ومختبَرة جيدًا وفعّالة للمكوّنات الأساسية
- تحسين الإنتاجية من خلال إتاحة إمكانية دمج المكوّنات ذات المستوى المنخفض في أدوات تحسين مخصّصة (أو مكوّنات أخرى لمعالجة التدرّج).
- تسريع تبنّي الأفكار الجديدة من خلال تسهيل مساهمة أي شخص
مُحسِّن
هي تنفيذ محدّد لخوارزمية النزول التدريجي. تشمل أدوات التحسين الشائعة ما يلي:
- AdaGrad، وهي اختصار لعبارة ADAptive GRADient descent.
- Adam، وهو اختصار لعبارة ADAptive with Momentum.
ORA
الاختصار إجابة واحدة صحيحة
الانحياز للتشابه خارج المجموعة
الميل إلى اعتبار أعضاء المجموعة الخارجية أكثر تشابهًا من أعضاء المجموعة الداخلية عند مقارنة المواقف والقيم والسمات الشخصية وغيرها من الخصائص يشير مصطلح المجموعة الداخلية إلى الأشخاص الذين تتفاعل معهم بانتظام، بينما يشير مصطلح المجموعة الخارجية إلى الأشخاص الذين لا تتفاعل معهم بانتظام. إذا أنشأت مجموعة بيانات من خلال الطلب من المشاركين تقديم سمات حول المجموعات الخارجية، قد تكون هذه السمات أقل دقة وأكثر نمطية من السمات التي يدرجها المشاركون للأشخاص في مجموعتهم الداخلية.
على سبيل المثال، قد يصف سكان ليليبوت منازل بعضهم البعض بتفصيل كبير، مع الإشارة إلى اختلافات بسيطة في الأساليب المعمارية والنوافذ والأبواب والأحجام. في المقابل، قد يزعم الأقزام أنّ جميع العمالقة يعيشون في منازل متطابقة.
الانحياز للتشابه خارج المجموعة هو شكل من أشكال الانحياز لتشابه المجموعة.
اطّلِع أيضًا على الانحياز لأفراد المجموعة.
رصد القيم الشاذة
عملية تحديد القيم المتطرفة في مجموعة التدريب
يختلف عن رصد المحتوى الجديد.
الذي حقق أداءً مختلفًا
القيم البعيدة عن معظم القيم الأخرى في التعلّم الآلي، أي مما يلي يُعدّ قيمة شاذة:
- أدخِل بيانات تكون قيمها أكبر من 3 انحرافات معيارية تقريبًا عن المتوسط.
- الأوزان ذات القيم المطلقة العالية
- القيم المتوقّعة البعيدة نسبيًا عن القيم الفعلية
على سبيل المثال، لنفترض أنّ widget-price هي إحدى ميزات طراز معيّن.
لنفترض أنّ المتوسط widget-price هو 7 يورو مع انحراف معياري يبلغ 1 يورو. وبالتالي، فإنّ الأمثلة التي تتضمّن widget-price بقيمة 12 يورو أو 2 يورو ستُعتبر قيمًا متطرفة لأنّ كل سعر من هذه الأسعار يبتعد بمقدار خمسة انحرافات معيارية عن المتوسط.
غالبًا ما تحدث القيم الشاذة بسبب أخطاء إملائية أو أخطاء أخرى في الإدخال. في حالات أخرى، لا تكون القيم الشاذة أخطاء، فمن النادر أن تكون القيم بعيدة عن المتوسط بمقدار خمسة انحرافات معيارية، ولكن هذا ليس مستحيلاً.
تتسبب القيم الشاذة غالبًا في حدوث مشاكل في تدريب النماذج. القص هو إحدى طرق إدارة القيم الشاذة.
لمزيد من المعلومات، راجِع التعامل مع البيانات الرقمية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
التقييم خارج المجموعة (OOB)
آلية لتقييم جودة غابة القرارات من خلال اختبار كل شجرة قرارات مقابل الأمثلة غير المستخدَمة أثناء التدريب على شجرة القرارات هذه. على سبيل المثال، في الرسم البياني التالي، لاحظ أنّ النظام يدرب كل شجرة قرار على حوالي ثلثَي الأمثلة ثم يقيّمها استنادًا إلى الثلث المتبقي من الأمثلة.
التقييم خارج المجموعة هو تقريب فعال من الناحية الحسابية ومحافظ لآلية التحقّق المتبادل. في التصديق المتقاطع، يتم تدريب نموذج واحد لكل جولة من جولات التصديق المتقاطع (على سبيل المثال، يتم تدريب 10 نماذج في عملية تصديق متقاطع من 10 أجزاء). باستخدام التقييم خارج النطاق، يتم تدريب نموذج واحد. بما أنّ التجميع يحجب بعض البيانات عن كل شجرة أثناء التدريب، يمكن أن يستخدم تقييم OOB هذه البيانات لتقريب التحقّق من الصحة المتبادل.
يمكنك الاطّلاع على التقييم خارج المجموعة في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
طبقة الإخراج
الطبقة "النهائية" في الشبكة العصبية تحتوي طبقة الإخراج على التوقّع.
يوضّح الرسم التوضيحي التالي شبكة عصبية عميقة صغيرة تتضمّن طبقة إدخال وطبقتَين مخفيتَين وطبقة إخراج:
فرط التخصيص
إنشاء نموذج يتطابق مع بيانات التدريب بشكل كبير جدًا، ما يؤدي إلى عدم قدرة النموذج على تقديم توقّعات صحيحة بشأن البيانات الجديدة
يمكن أن يؤدي التسوية إلى الحدّ من الإفراط في التكيّف. يمكن أن يؤدي التدريب على مجموعة تدريب كبيرة ومتنوعة أيضًا إلى تقليل الإفراط في التخصيص.
يمكنك الاطّلاع على مقالة الإفراط في التخصيص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
أخذ عيّنات زائدة
إعادة استخدام أمثلة لفئة أقل تمثيلاً في مجموعة بيانات غير متوازنة الفئات من أجل إنشاء مجموعة تدريب أكثر توازنًا
على سبيل المثال، لنفترض أنّ لديك مشكلة تصنيف ثنائي يكون فيها معدّل الفئة الأكبر إلى الفئة الأصغر هو 5,000:1. إذا كانت مجموعة البيانات تحتوي على مليون مثال، فإنّها لن تحتوي إلا على 200 مثال تقريبًا من الفئة الأقل تمثيلاً، وهو عدد قليل جدًا من الأمثلة للتدريب الفعّال. للتغلّب على هذا النقص، يمكنك إعادة استخدام هذه الأمثلة الـ 200 عدة مرات، ما قد يؤدي إلى توفير أمثلة كافية للتدريب المفيد.
يجب توخّي الحذر بشأن التطابق الزائد عند إجراء عملية أخذ عينات زائدة.
يختلف ذلك عن نقص أخذ العيّنات.
P
البيانات المضغوطة
طريقة لتخزين البيانات بشكل أكثر كفاءة
تخزّن البيانات المضغوطة البيانات إما باستخدام تنسيق مضغوط أو بطريقة أخرى تتيح الوصول إليها بشكل أكثر كفاءة. تؤدي البيانات المضغوطة إلى تقليل مقدار الذاكرة والعمليات الحسابية المطلوبة للوصول إليها، ما يؤدي إلى تسريع عملية التدريب واستنتاج النموذج بشكل أكثر كفاءة.
يتم غالبًا استخدام البيانات المضغوطة مع تقنيات أخرى، مثل زيادة البيانات و التسوية، ما يؤدي إلى تحسين أداء النماذج بشكل أكبر.
PaLM
اختصار النموذج اللغوي للمسارات
باندا
واجهة برمجة تطبيقات لتحليل البيانات موجّهة نحو الأعمدة ومصمّمة استنادًا إلى numpy. تتيح العديد من أُطر تعلُّم الآلة، بما في ذلك TensorFlow، استخدام بنى بيانات pandas كمدخلات. لمزيد من التفاصيل، يُرجى الاطّلاع على مستندات pandas.
المَعلمة
الأوزان والانحيازات التي يتعلّمها النموذج أثناء عملية التدريب على سبيل المثال، في نموذج الانحدار الخطي، تتألف المَعلمات من الانحياز (b) وجميع الأوزان (w1 وw2 وما إلى ذلك) في الصيغة التالية:
في المقابل، فرط المعلمات هي القيم التي توفّرها أنت (أو خدمة ضبط فرط المعلمات) للنموذج. على سبيل المثال، معدّل التعلّم هو وسيط فائق.
الضبط الفعّال من حيث المعلَمات
مجموعة من الأساليب لضبط نموذج لغوي كبير مُدرَّب مسبقًا (PLM) بشكل أكثر فعالية من الضبط الدقيق الكامل. تتيح عملية الضبط الدقيق الفعّالة من حيث عدد المَعلمات عادةً ضبط عدد أقل بكثير من المَعلمات مقارنةً بعملية الضبط الدقيق الكامل، ولكنها تنتج بشكل عام نموذجًا لغويًا كبيرًا يحقّق أداءً جيدًا (أو جيدًا تقريبًا) مثل النموذج اللغوي الكبير الذي تم إنشاؤه من خلال عملية الضبط الدقيق الكامل.
مقارنة الضبط الفعّال من حيث المَعلَمات بما يلي:
يُعرف الضبط الفعّال من حيث المَعلمات أيضًا باسم الضبط الدقيق الفعّال من حيث المَعلمات.
خادم المَعلمات (PS)
مهمة تتتبّع مَعلمات نموذج في إعداد موزّع.
تعديل المَعلمة
عملية تعديل مَعلمات النموذج أثناء التدريب، وعادةً ما يتم ذلك في تكرار واحد من النزول التدريجي
مشتقة جزئية
مشتقّ يُعدّ فيه كل المتغيرات ثابتة باستثناء متغير واحد على سبيل المثال، المشتقة الجزئية للدالة f(x, y) بالنسبة إلى x هي مشتقة f التي يتم اعتبارها دالة في x فقط (أي مع إبقاء y ثابتة). يركّز الاشتقاق الجزئي للدالة f بالنسبة إلى x على طريقة تغيّر x فقط، ويتجاهل جميع المتغيرات الأخرى في المعادلة.
انحياز المشاركة
مرادف لانحياز عدم الاستجابة اطّلِع على الانحياز في الاختيار.
استراتيجية التجزئة
الخوارزمية التي يتم بموجبها تقسيم المتغيرات على خوادم المَعلمات
الاجتياز عند k (pass@k)
مقياس لتحديد جودة الرمز (مثل Python) الذي ينشئه نموذج لغوي كبير وبشكل أكثر تحديدًا، يخبرك مقياس "النجاح عند k" باحتمالية أن تجتاز مجموعة واحدة على الأقل من مجموعات الرموز البرمجية التي تم إنشاؤها من بين k مجموعة من الرموز البرمجية جميع اختبارات الوحدة.
غالبًا ما تواجه النماذج اللغوية الكبيرة صعوبة في إنشاء رموز برمجية جيدة للمشاكل البرمجية المعقّدة. يتكيّف مهندسو البرامج مع هذه المشكلة من خلال مطالبة النموذج اللغوي الكبير بإنشاء حلول متعدّدة (k) للمشكلة نفسها. بعد ذلك، يختبر مهندسو البرامج كل حلّ باستخدام اختبارات الوحدات. يعتمد احتساب "اجتياز" عند k على نتيجة اختبارات الوحدات:
- إذا نجح واحد أو أكثر من هذه الحلول في اختبار الوحدة، يعني ذلك أنّ النموذج اللغوي الكبير اجتاز تحدّي إنشاء الرمز البرمجي هذا.
- إذا لم ينجح أي من الحلول في اجتياز اختبار الوحدة، يفشل النموذج اللغوي الكبير في تحدي إنشاء الرمز البرمجي.
صيغة الدقة عند k هي كما يلي:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
بشكل عام، تؤدي القيم الأعلى لـ k إلى الحصول على درجات أعلى عند k، ولكن تتطلب القيم الأعلى لـ k المزيد من موارد النماذج اللغوية الكبيرة واختبارات الوحدات.
نموذج Pathways اللغوي (PaLM)
نموذج قديم ونسخة سابقة من نماذج Gemini
Pax
إطار برمجي مصمّم لتدريب الشبكات العصبية النماذج الكبيرة الحجم، والتي تكون كبيرة جدًا لدرجة أنّها تمتد على شرائح وحدات معالجة الموتّرات أو شرائح تسريع متعددة أو حِزم.
تم إنشاء Pax على Flax، الذي تم إنشاؤه على JAX.
البرسبترون
نظام (أو جهاز أو برنامج) يتلقّى قيمة إدخال واحدة أو أكثر، ويشغّل دالة على المجموع المرجّح للمدخلات، ويحسب قيمة إخراج واحدة. في تعلُّم الآلة، تكون الدالة عادةً غير خطية، مثل ReLU أو sigmoid أو tanh. على سبيل المثال، يعتمد البيرسبترون التالي على الدالة السينية لمعالجة ثلاث قيم إدخال:
في الرسم التوضيحي التالي، يستقبل البيرسبترون ثلاث مدخلات، يتم تعديل كل منها بواسطة وزن قبل إدخاله إلى البيرسبترون:
تُعدّ وحدات الإدراك خلايا عصبية في الشبكات العصبونية.
الأداء
مصطلح مُحمّل بالمعاني التالية:
- المعنى العادي ضمن هندسة البرمجيات وهي: ما مدى سرعة (أو كفاءة) تشغيل هذا البرنامج؟
- المعنى في سياق تعلُّم الآلة في هذه الحالة، يجيب الأداء عن السؤال التالي: ما مدى صحة هذا النموذج؟ أي، ما مدى جودة توقّعات النموذج؟
أهمية المتغيرات في عملية التبديل
أحد أنواع أهمية المتغير الذي يقيّم الزيادة في خطأ التوقّع للنموذج بعد تبديل قيم الميزة. أهمية المتغيرات في التبديل هي مقياس مستقل عن النموذج.
مقياس الارتباك
مقياس لمدى نجاح النموذج في إنجاز مهمته. على سبيل المثال، لنفترض أنّ مهمتك هي قراءة الأحرف القليلة الأولى من كلمة يكتبها المستخدم على لوحة مفاتيح الهاتف، وتقديم قائمة بالكلمات المحتملة التي يمكن إكمالها. إنّ مقياس الحيرة، P، لهذه المهمة هو تقريبًا عدد التخمينات التي عليك تقديمها لكي تتضمّن قائمتك الكلمة الفعلية التي يحاول المستخدم كتابتها.
ترتبط الحيرة بالإنتروبيا المتداخلة على النحو التالي:
مسار التعلّم
البنية الأساسية المحيطة بخوارزمية تعلُّم الآلة تتضمّن عملية إنشاء مسار تجميع البيانات ووضعها في ملفات بيانات التدريب وتدريب نموذج واحد أو أكثر وتصدير النماذج إلى مرحلة الإنتاج.
لمزيد من المعلومات، راجِع عمليات ML في دورة "إدارة مشاريع تعلُّم الآلة".
تداخل تنفيذ التعليمات
أحد أشكال التوازية على مستوى النموذج، حيث يتم تقسيم معالجة النموذج إلى مراحل متتالية ويتم تنفيذ كل مرحلة على جهاز مختلف. أثناء معالجة مرحلة ما لإحدى الدفعات، يمكن للمرحلة السابقة معالجة الدفعة التالية.
اطّلِع أيضًا على التدريب على مراحل.
pjit
دالة JAX تقسّم الرمز البرمجي ليتم تنفيذه على عدة شرائح تسريع. يُمرِّر المستخدم دالة إلى pjit، تعرض دالة لها الدلالات المكافئة ولكن يتم تجميعها في عملية حسابية XLA يتم تنفيذها على عدة أجهزة (مثل وحدات معالجة الرسومات أو نوى TPU).
تتيح هذه الميزة للمستخدمين تقسيم العمليات الحسابية بدون إعادة كتابتها باستخدام أداة التقسيم SPMD.
اعتبارًا من مارس 2023، تم دمج pjit مع jit. يمكنك الرجوع إلى
المصفوفات الموزّعة والتوازي التلقائي
لمزيد من التفاصيل.
PLM
اختصار نموذج لغوي مدرَّب مسبقًا
pmap
دالة JAX تنفّذ نُسخًا من دالة إدخال على أجهزة متعددة (وحدات معالجة مركزية أو وحدات معالجة الرسومات أو وحدات TPU) بقيم إدخال مختلفة، وتعتمد دالة pmap على SPMD.
سياسة
في التعلّم التعزيزي، يكون الوكيل عبارة عن عملية ربط احتمالية بين الحالات والإجراءات.
التجميع
تقليل حجم مصفوفة (أو مصفوفات) تم إنشاؤها بواسطة طبقة التفافية سابقة إلى مصفوفة أصغر تتضمّن عملية التجميع عادةً أخذ القيمة القصوى أو المتوسطة في المنطقة المجمّعة. على سبيل المثال، لنفترض أنّ لدينا مصفوفة 3x3 التالية:
تعمل عملية التجميع، تمامًا مثل عملية الالتفاف، على تقسيم هذه المصفوفة إلى شرائح ثم تمرير عملية الالتفاف هذه بمقدار خطوات. على سبيل المثال، لنفترض أنّ عملية التجميع تقسّم مصفوفة الالتفاف إلى شرائح 2x2 بخطوة 1x1. كما يوضّح الرسم البياني التالي، يتم تنفيذ أربع عمليات تجميع. لنفترض أنّ كل عملية تجميع تختار القيمة القصوى من القيم الأربع في تلك الشريحة:
تساعد عملية التجميع في فرض ثبات الترجمة في مصفوفة الإدخال.
يُعرف التجميع لتطبيقات الرؤية بشكل أكثر رسمية باسم التجميع المكاني. تشير تطبيقات السلاسل الزمنية عادةً إلى التجميع باسم التجميع الزمني. بشكل أقل رسمية، يُطلق على التجميع غالبًا اسم أخذ عينات فرعية أو تقليل عدد العينات.
الترميز الموضعي
أسلوب لإضافة معلومات حول موضع الرمز المميّز في تسلسل إلى تضمين الرمز المميّز تستخدم نماذج Transformer الترميز الموضعي لفهم العلاقة بين الأجزاء المختلفة من التسلسل بشكل أفضل.
يستخدم التنفيذ الشائع للترميز الموضعي دالة جيبية. (على وجه التحديد، يتم تحديد معدّل التكرار والسعة للدالة الجيبية من خلال موضع الرمز المميز في التسلسل). تتيح هذه التقنية لنموذج Transformer التعرّف على كيفية الانتباه إلى أجزاء مختلفة من التسلسل استنادًا إلى موضعها.
فئة موجبة
الفئة التي تختبرها.
على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". قد تكون الفئة الإيجابية في نموذج تصنيف رسائل إلكترونية هي "رسائل غير مرغوب فيها".
يجب التمييز بينها وبين الفئة السلبية.
المعالجة اللاحقة
تعديل ناتج النموذج بعد تشغيله يمكن استخدام المعالجة اللاحقة لفرض قيود العدالة بدون تعديل النماذج نفسها.
على سبيل المثال، يمكن تطبيق المعالجة اللاحقة على نموذج التصنيف الثنائي من خلال ضبط حدّ التصنيف، وذلك للحفاظ على تكافؤ الفرص لبعض السمات من خلال التأكّد من أنّ معدّل الإيجابية الحقيقية هو نفسه لجميع قيم تلك السمة.
نموذج محسَّن بعد التدريب
مصطلح غير محدّد بدقة يشير عادةً إلى نموذج مُدرَّب مسبقًا خضع لبعض المعالجة اللاحقة، مثل واحد أو أكثر مما يلي:
المساحة تحت منحنى الدقة والاستدعاء (PR AUC)
المساحة تحت منحنى الدقة والاستدعاء الذي تم استيفاؤه، ويتم الحصول عليها من خلال رسم نقاط (الاستدعاء، الدقة) لقيم مختلفة لحد التصنيف.
Praxis
مكتبة أساسية وعالية الأداء لتعلُّم الآلة في Pax يُطلق على Praxis غالبًا اسم "مكتبة الطبقات".
لا يحتوي Praxis على تعريفات لفئة Layer فحسب، بل يتضمّن أيضًا معظم المكوّنات الداعمة لها، بما في ذلك:
- مدخلات البيانات
- مكتبات الإعدادات (HParam وFiddle)
- أدوات التحسين
توفّر Praxis تعريفات لفئة النموذج.
الدقة
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما توقّع النموذج الفئة الموجبة، ما هي النسبة المئوية للتوقّعات الصحيحة؟
في ما يلي الصيغة:
where:
- تشير النتيجة الإيجابية الصحيحة إلى أنّ النموذج توقّع بشكل صحيح الفئة الإيجابية.
- تعني النتيجة الموجبة الخاطئة أنّ النموذج توقّع عن طريق الخطأ الفئة الموجبة.
على سبيل المثال، لنفترض أنّ أحد النماذج قدّم 200 توقّع إيجابي. من بين هذه التوقّعات الإيجابية البالغ عددها 200:
- كانت 150 منها نتائج موجبة صحيحة.
- كانت 50 منها نتائج موجبة خاطئة.
في هذه الحالة:
يجب التمييز بينه وبين الدقة واكتمال التوقعات الإيجابية.
يمكنك الاطّلاع على التصنيف: الدقة والاسترجاع والضبط والمقاييس ذات الصلة في "دورة تدريبية مكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
مقياس الدقة عند k (precision@k)
مقياس لتقييم قائمة مرتبة من العناصر تحدّد الدقة عند k الجزء من أول k عنصر في تلك القائمة الذي يكون "ملائمًا". والمقصود:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
يجب أن تكون قيمة k أقل من أو تساوي طول القائمة التي تم إرجاعها. يُرجى العلم أنّ طول القائمة التي تم إرجاعها ليس جزءًا من عملية الاحتساب.
غالبًا ما يكون مدى الصلة بالموضوع أمرًا شخصيًا، وحتى المقيّمون البشريون الخبراء يختلفون في كثير من الأحيان بشأن العناصر ذات الصلة بالموضوع.
المقارنة بـ:
منحنى الدقة والاستدعاء
منحنى الدقة مقابل التذكّر عند عتبات التصنيف المختلفة
التوقّع
ناتج النموذج على سبيل المثال:
- يكون التوقّع الذي يقدّمه نموذج التصنيف الثنائي إما الفئة الإيجابية أو الفئة السلبية.
- يكون التوقّع الذي يقدّمه نموذج التصنيف المتعدد الفئات عبارة عن فئة واحدة.
- توقّع نموذج الانحدار الخطي هو رقم.
انحياز التوقّعات
تشير هذه القيمة إلى مدى اختلاف متوسط التوقعات عن متوسط التصنيفات في مجموعة البيانات.
يجب عدم الخلط بين هذا المفهوم ومصطلح الانحياز في نماذج تعلُّم الآلة أو الانحياز في الأخلاق والعدالة.
تعلُّم الآلة التوقّعي
أي نظام تعلُّم آلة عادي ("كلاسيكي")
لا يوجد تعريف رسمي لمصطلح التعلم الآلي التوقعي. بل يميز المصطلح فئة من أنظمة تعلُّم الآلة لا تستند إلى الذكاء الاصطناعي التوليدي.
التكافؤ التوقّعي
مقياس الإنصاف الذي يتحقّق مما إذا كانت معدّلات الدقة متساوية للمجموعات الفرعية قيد الدراسة، وذلك بالنسبة إلى نموذج تصنيف معيّن.
على سبيل المثال، سيستوفي نموذج يتوقّع القبول في الكلية شرط التكافؤ التوقّعي للجنسية إذا كان معدّل دقته هو نفسه بالنسبة إلى الأشخاص من ليليبوت وبروبدينغناغ.
يُطلق على ميزة "تطابق الأسعار التوقّعية" أحيانًا اسم تطابق الأسعار التوقّعية.
يمكنك الاطّلاع على "تعريفات العدالة الموضّحة" (الفقرة 3.2.1) للحصول على مناقشة أكثر تفصيلاً حول التكافؤ التوقعي.
تساوي الأسعار التوقّعي
اسم آخر للتكافؤ التوقعي
المعالجة المُسبَقة
معالجة البيانات قبل استخدامها لتدريب نموذج يمكن أن تكون المعالجة المسبقة بسيطة، مثل إزالة الكلمات من مجموعة نصوص باللغة الإنجليزية غير متوفرة في قاموس اللغة الإنجليزية، أو معقّدة، مثل إعادة التعبير عن نقاط البيانات بطريقة تزيل أكبر عدد ممكن من السمات المرتبطة بالسمات الحسّاسة. يمكن أن تساعد المعالجة المُسبقة في استيفاء قيود الإنصاف.نموذج مدرَّب مسبقًا
على الرغم من أنّ هذا المصطلح يمكن أن يشير إلى أي نموذج مدرَّب أو متّجه تضمين مدرَّب، يشير النموذج المدرَّب مسبقًا الآن عادةً إلى نموذج لغوي كبير مدرَّب أو شكل آخر من أشكال الذكاء الاصطناعي التوليدي المدرَّب.
يمكنك أيضًا الاطّلاع على النموذج الأساسي والنموذج الأولي.
التدريب المسبق
التدريب الأوّلي للنموذج على مجموعة بيانات كبيرة بعض النماذج المدرَّبة مسبقًا هي نماذج ضخمة وغير دقيقة، ويجب عادةً تحسينها من خلال تدريب إضافي. على سبيل المثال، قد يدرّب خبراء تعلُّم الآلة نموذج لغة كبيرًا مسبقًا على مجموعة بيانات نصية ضخمة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية. بعد التدريب المُسبَق، يمكن تحسين النموذج الناتج بشكل أكبر من خلال أي من التقنيات التالية:
الاعتقاد المسبق
ما تعتقده بشأن البيانات قبل البدء في التدريب عليها على سبيل المثال، تعتمد تسوية L2 على اعتقاد مسبق بأنّ الأوزان يجب أن تكون صغيرة وموزّعة بشكل طبيعي حول الصفر.
Pro
نموذج Gemini يتضمّن عددًا أقل من المَعلمات مقارنةً بنموذج Ultra، ولكن عددًا أكبر من المَعلمات مقارنةً بنموذج Nano. لمزيد من التفاصيل، يمكنك الاطّلاع على مقالة Gemini Pro.
نموذج الانحدار الاحتمالي
نموذج انحدار يستخدم الأوزان لكل سمة، بالإضافة إلى عدم اليقين بشأن هذه الأوزان. ينشئ نموذج الانحدار الاحتمالي توقّعًا ومقدار عدم اليقين المرتبط بهذا التوقّع. على سبيل المثال، قد يعطي نموذج الانحدار الاحتمالي قيمة متوقّعة تبلغ 325 بانحراف معياري يبلغ 12. لمزيد من المعلومات حول نماذج الانحدار الاحتمالي، يُرجى الاطّلاع على هذا المستند على Colab في tensorflow.org.
دالة الكثافة الاحتمالية
دالة تحدّد عدد مرات تكرار عيّنات البيانات التي تتضمّن بالضبط قيمة معيّنة. عندما تكون قيم مجموعة البيانات عبارة عن أرقام نقطة عائمة مستمرة، نادرًا ما تحدث تطابقات تامة. ومع ذلك، يؤدي تكامل دالة كثافة الاحتمال من القيمة x إلى القيمة y إلى الحصول على التكرار المتوقّع لعيّنات البيانات بين x وy.
على سبيل المثال، لنفترض أنّ لدينا توزيعًا طبيعيًا بمتوسط 200 وانحراف معياري يبلغ 30. لتحديد التكرار المتوقّع لعينات البيانات التي تقع ضمن النطاق من 211.4 إلى 218.7، يمكنك دمج دالة كثافة الاحتمال للتوزيع الطبيعي من 211.4 إلى 218.7.
prompt
أي نص يتم إدخاله كمدخل إلى نموذج لغوي كبير لإعداد النموذج ليعمل بطريقة معيّنة. يمكن أن تكون الطلبات قصيرة مثل عبارة أو طويلة بشكل عشوائي (على سبيل المثال، النص الكامل لرواية). تندرج الطلبات ضمن فئات متعددة، بما في ذلك تلك الموضّحة في الجدول التالي:
| فئة الطلب | مثال | ملاحظات |
|---|---|---|
| السؤال | ما هي سرعة طيران الحمام؟ | |
| مدرسة تعليم | اكتب قصيدة مضحكة عن المراجحة. | طلب يطلب من النموذج اللغوي الكبير تنفيذ إجراء معيّن. |
| مثال | ترجمة رمز Markdown إلى HTML على سبيل المثال:
Markdown: * عنصر قائمة HTML: <ul> <li>عنصر قائمة</li> </ul> |
الجملة الأولى في مثال الطلب هذا هي تعليمات. بقية الطلب هي المثال. |
| الدور | اشرح سبب استخدام خوارزمية انحدار التدرّج في تدريب تعلُّم الآلة، وذلك لشخص حاصل على درجة الدكتوراه في الفيزياء. | الجزء الأول من الجملة هو تعليمات، أما العبارة "للحصول على درجة الدكتوراه في الفيزياء" فهي جزء الدور. |
| إدخال جزئي لإكماله من قِبل النموذج | مكان سكن رئيس وزراء المملكة المتحدة هو | يمكن أن ينتهي طلب الإدخال الجزئي بشكل مفاجئ (كما هو الحال في هذا المثال) أو ينتهي بشرطة سفلية. |
يمكن لنموذج الذكاء الاصطناعي التوليدي الاستجابة لطلب باستخدام نص أو رمز برمجي أو صور أو تضمينات أو فيديوهات أو أي شيء آخر تقريبًا.
التعلّم المستند إلى الطلبات
إحدى إمكانات بعض النماذج التي تتيح لها تعديل سلوكها استجابةً لإدخال نص عشوائي (طلبات). في نموذج التعلّم النموذجي المستند إلى الطلبات، يستجيب النموذج اللغوي الكبير لطلب من خلال إنشاء نص. على سبيل المثال، لنفترض أنّ المستخدم يُدخل الطلب التالي:
لخِّص قانون "نيوتن" الثالث للحركة.
لا يتم تدريب النموذج القادر على التعلّم المستند إلى الطلبات بشكل خاص للإجابة عن الطلب السابق. بدلاً من ذلك، "يعرف" النموذج الكثير من الحقائق حول الفيزياء، والكثير حول قواعد اللغة العامة، والكثير حول ما يشكّل إجابات مفيدة بشكل عام. هذه المعرفة كافية لتقديم إجابة (نأمل أن تكون) مفيدة. تتيح الملاحظات الإضافية من المستخدمين ("كانت الإجابة معقّدة جدًا" أو "ما هي التفاعلات؟") لبعض أنظمة التعلّم المستندة إلى الطلبات تحسين فائدة إجاباتها تدريجيًا.
تصميم الطلبات
مرادف لهندسة الطلبات
هندسة الطلبات
فن إنشاء طلبات تؤدي إلى الحصول على ردود مرغوبة من نموذج لغوي كبير يُجري البشر عملية هندسة الطلبات. تُعد كتابة طلبات منظَّمة بشكل جيد جزءًا أساسيًا من ضمان الحصول على ردود مفيدة من نموذج لغوي كبير. تعتمد هندسة الطلبات على العديد من العوامل، بما في ذلك:
- مجموعة البيانات المستخدَمة في التدريب المُسبَق وربما في الضبط الدقيق للنموذج اللغوي الكبير
- تمثّل هذه السمة درجة الحرارة وغيرها من مَعلمات فك الترميز التي يستخدمها النموذج لإنشاء الردود.
تصميم الطلبات هو مرادف لهندسة الطلبات.
يمكنك الاطّلاع على مقدمة حول تصميم الطلبات لمزيد من التفاصيل حول كتابة طلبات مفيدة.
مجموعة الطلبات
مجموعة من الطلبات لتقييم نموذج لغوي كبير على سبيل المثال، يوضّح الرسم التوضيحي التالي مجموعة طلبات تتألف من ثلاثة طلبات:
تتألف مجموعات الطلبات الجيدة من مجموعة "واسعة" بما يكفي من الطلبات لتقييم سلامة النماذج اللغوية الكبيرة ومدى فائدتها بشكل شامل.
راجِع أيضًا مجموعة الردود.
تعديل الطلبات
آلية ضبط فعّالة للمَعلمات تتعلّم "بادئة" يضيفها النظام إلى الطلب الفعلي.
إحدى طرق تعديل الطلبات، والتي تُعرف أحيانًا باسم تعديل البادئة، هي إضافة البادئة في كل طبقة. في المقابل، لا تضيف معظم عمليات تحسين الطلبات سوى بادئة إلى طبقة الإدخال.
الوكيل (السمات الحسّاسة)
سمة مستخدَمة كبديل عن سمة حساسة على سبيل المثال، يمكن استخدام الرمز البريدي الخاص بفرد كبديل للدخل أو العِرق أو الأصل الإثني.تصنيفات تقريبية
البيانات المستخدَمة لتقريب التصنيفات غير المتوفّرة مباشرةً في مجموعة البيانات
على سبيل المثال، لنفترض أنّه عليك تدريب نموذج للتنبؤ بمستوى الإجهاد لدى الموظفين. تحتوي مجموعة البيانات على الكثير من الميزات التنبؤية، ولكنها لا تتضمّن تصنيفًا باسم مستوى التوتر. لم يثنِك ذلك عن اختيار "حوادث في مكان العمل" كبديل لمستوى الإجهاد. ففي النهاية، يتعرّض الموظفون الذين يعانون من ضغط كبير إلى حوادث أكثر من الموظفين الذين يتمتعون بالهدوء. أم أنّها كذلك؟ ربما تزداد حوادث العمل وتنخفض لأسباب متعددة.
كمثال ثانٍ، لنفترض أنّك تريد أن يكون هل تمطر؟ تصنيفًا منطقيًا لمجموعة البيانات، ولكنّ مجموعة البيانات لا تحتوي على بيانات عن المطر. إذا كانت الصور الفوتوغرافية متوفرة، يمكنك إنشاء صور لأشخاص يحملون مظلات كعلامة بديلة للسؤال هل تمطر؟ هل هذا التصنيف بديل جيد؟ من المحتمل ذلك، ولكن قد يميل الأشخاص في بعض الثقافات إلى حمل المظلات للحماية من الشمس أكثر من الحماية من المطر.
غالبًا ما تكون التصنيفات البديلة غير مثالية. عند الإمكان، اختَر التصنيفات الفعلية بدلاً من التصنيفات البديلة. مع ذلك، عند عدم توفّر تصنيف فعلي، يجب اختيار التصنيف البديل بعناية فائقة، مع الحرص على اختيار التصنيف البديل الأقل سوءًا.
لمزيد من المعلومات، اطّلِع على مجموعات البيانات: التصنيفات في "دورة مكثّفة عن تعلُّم الآلة".
دالة خالصة
دالة تستند مخرجاتها إلى مدخلاتها فقط، ولا تتضمّن أي آثار جانبية. على وجه التحديد، لا تستخدم الدالة النقية أي حالة عامة أو تغيّرها، مثل محتوى ملف أو قيمة متغيّر خارج الدالة.
يمكن استخدام الدوال النقية لإنشاء رموز برمجية آمنة للاستخدام المتزامن، وهو أمر مفيد عند تقسيم رمز النموذج على عدة شرائح تسريع.
تتطلّب طرق تحويل الدوال في JAX أن تكون الدوال المُدخَلة دوالاً خالصة.
Q
دالة Q
في التعلم المعزّز، تكون الدالة هي التي تتوقّع العائد المتوقّع من اتّخاذ إجراء في حالة معيّنة ثم اتّباع سياسة معيّنة.
تُعرف دالة Q أيضًا باسم دالة قيمة حالة الإجراء.
Q-learning
في التعلم المعزّز، يتم استخدام خوارزمية تتيح لبرنامج تعلُّم دالة Q المثالية لعملية اتخاذ قرار ماركوف من خلال تطبيق معادلة بيلمان. تضع نماذج عملية اتخاذ القرار في ماركوف بيئة.
التجزيء
كل مجموعة في تقسيم البيانات إلى شرائح حسب الكمية
تقسيم البيانات إلى حزمات حسب الكمية
توزيع قيم إحدى السمات على حِزم بحيث تحتوي كل حزمة على العدد نفسه (أو العدد نفسه تقريبًا) من الأمثلة على سبيل المثال، يقسّم الشكل التالي 44 نقطة إلى 4 مجموعات، تحتوي كل منها على 11 نقطة. ولكي يحتوي كل جزء في الشكل على العدد نفسه من النقاط، يمتد بعض الأجزاء على عرض مختلف من قيم x.
لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الرقمية: التقسيم إلى فئات في "دورة مكثّفة عن تعلُّم الآلة".
التقطيع
مصطلح مُحمَّل بشكل زائد يمكن استخدامه بأي من الطرق التالية:
- تنفيذ تقسيم إلى شرائح حسب الكمية على ميزة معيّنة
- تحويل البيانات إلى أصفار وآحاد لتسريع عمليات التخزين والتدريب والاستنتاج بما أنّ البيانات المنطقية أكثر مقاومة للتشويش والأخطاء من التنسيقات الأخرى، يمكن أن يؤدي التكميم إلى تحسين صحة النموذج. تشمل تقنيات التكميم التقريب والاقتطاع والتصنيف.
تقليل عدد وحدات البت المستخدَمة لتخزين المَعلمات الخاصة بنموذج على سبيل المثال، لنفترض أنّ مَعلمات أحد النماذج يتم تخزينها كأرقام نقطة عائمة 32 بت. وتحوّل عملية التكميم هذه المَعلمات من 32 بت إلى 4 أو 8 أو 16 بت. يؤدي التكميم إلى تقليل ما يلي:
- استخدام الحوسبة والذاكرة والقرص والشبكة
- حان الوقت لاستنتاج تنبؤ
- استهلاك الطاقة
ومع ذلك، يؤدي التكميم أحيانًا إلى تقليل صحة التوقعات التي يقدّمها النموذج.
قائمة المحتوى التالي
عملية TensorFlow تنفّذ بنية بيانات قائمة الانتظار. يُستخدم عادةً في عمليات الإدخال والإخراج.
R
التوليد المعزّز بالاسترجاع (RAG)
اختصار للتوليد المعزّز بالاسترجاع
الغابة العشوائية
مجموعة من أشجار القرارات يتم تدريب كل شجرة قرارات فيها باستخدام ضوضاء عشوائية محددة، مثل التجميع
الغابات العشوائية هي نوع من غابات القرارات.
يمكنك الاطّلاع على الغابة العشوائية في دورة "غابات القرارات" للحصول على مزيد من المعلومات.
سياسة عشوائية
في التعلم المعزّز، سياسة تختار إجراءً بشكل عشوائي.
الترتيب (الترتيب)
الترتيب التسلسلي لفئة في مشكلة تعلّم آلي تصنّف الفئات من الأعلى إلى الأدنى. على سبيل المثال، يمكن لنظام ترتيب السلوك أن يرتب مكافآت الكلاب من الأعلى (شريحة لحم) إلى الأدنى (كرنب مجعد ذابل).
الترتيب (متّجه)
عدد السمات في Tensor على سبيل المثال، يكون ترتيب العدد القياسي 0، وترتيب المتّجه 1، وترتيب المصفوفة 2.
يجب عدم الخلط بينها وبين الترتيب (الترتيب العددي).
الترتيب
نوع من التعلّم الموجّه يهدف إلى ترتيب قائمة من العناصر.
مُصنِّف
هو شخص يقدّم تصنيفات لأمثلة. "المعلِّق" هو اسم آخر للمقيّم.
لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الفئوية: المشاكل الشائعة في "دورة تدريبية مكثّفة حول تعلُّم الآلة".
مجموعة بيانات الفهم أثناء القراءة باستخدام الاستدلال المنطقي (ReCoRD)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على إجراء استدلال منطقي سليم يحتوي كل مثال في مجموعة البيانات على ثلاثة عناصر:
- فقرة أو فقرتان من مقالة إخبارية
- طلب بحث تم فيه إخفاء أحد الكيانات المحدّدة بشكل صريح أو ضِمني في الفقرة.
- الإجابة (اسم الكيان الذي ينتمي إلى القناع)
يمكنك الاطّلاع على ReCoRD للحصول على قائمة شاملة بالأمثلة.
ReCoRD هو أحد مكوّنات مجموعة SuperGLUE.
RealToxicityPrompts
مجموعة بيانات تحتوي على مجموعة من بدايات الجُمل التي قد تتضمّن محتوًى سامًا. استخدِم مجموعة البيانات هذه لتقييم قدرة نموذج لغوي كبير على إنشاء نص غير سام لإكمال الجملة. عادةً، يتم استخدام Perspective API لتحديد مدى جودة أداء النموذج اللغوي الكبير لهذه المهمة.
يمكنك الاطّلاع على RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models لمعرفة التفاصيل.
تذكُّر الإعلان
مقياس لنماذج التصنيف يجيب عن السؤال التالي:
عندما كانت الحقيقة الأساسية هي الفئة الموجبة، ما هي النسبة المئوية للتوقّعات التي حدّدها النموذج بشكل صحيح على أنّها الفئة الموجبة؟
في ما يلي الصيغة:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
where:
- تشير النتيجة الإيجابية الصحيحة إلى أنّ النموذج توقّع بشكل صحيح الفئة الإيجابية.
- يعني السلبي الخاطئ أنّ النموذج توقّع بشكل خاطئ الفئة السلبية.
على سبيل المثال، لنفترض أنّ نموذجك قدّم 200 توقّع بشأن أمثلة كانت الحقيقة الأساسية فيها هي الفئة الموجبة. من بين هذه التوقعات الـ 200:
- كانت 180 منها نتائج موجبة صحيحة.
- كانت 20 منها نتائج سلبية خاطئة.
في هذه الحالة:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
يمكنك الاطّلاع على التصنيف: الدقة والاسترجاع والضبط والمقاييس ذات الصلة للحصول على مزيد من المعلومات.
معدّل التذكّر عند k (recall@k)
مقياس لتقييم الأنظمة التي تعرض قائمة مرتبة (منظَّمة) من العناصر. يشير مقياس "الاسترجاع عند k" إلى نسبة العناصر ذات الصلة في أول k عنصر في تلك القائمة من إجمالي عدد العناصر ذات الصلة التي تم عرضها.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
التباين مع الدقة عند k
التعرّف على الاستلزام النصي (RTE)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تحديد ما إذا كان يمكن استنتاج فرضية (استنتاج منطقي) من مقطع نصي. يتألف كل مثال في تقييم بيئة التنفيذ الغنية (RTE) من ثلاثة أجزاء:
- فقرة، عادةً من مقالات إخبارية أو مقالات ويكيبيديا
- الفرضية
- الإجابة الصحيحة، وهي إحدى القيمتين التاليتين:
- True، ما يعني أنّه يمكن استنتاج الفرضية من المقطع
- False، ما يعني أنّه لا يمكن استنتاج الفرضية من المقطع
على سبيل المثال:
- المقطع: اليورو هو عملة الاتحاد الأوروبي.
- الفرضية: تستخدم فرنسا اليورو كعملة.
- الاستلزام: صحيح، لأنّ فرنسا جزء من الاتحاد الأوروبي.
RTE هي أحد مكوّنات مجموعة SuperGLUE.
نظام الاقتراحات
نظام يختار لكل مستخدم مجموعة صغيرة نسبيًا من العناصر المرغوبة من مجموعة كبيرة من النصوص. على سبيل المثال، قد يقترح نظام اقتراح الفيديوهات فيديوهَين من مجموعة تضم 100,000 فيديو، فيختار كازابلانكا وقصة فيلادلفيا لمستخدم واحد، والمرأة الخارقة والنمر الأسود لمستخدم آخر. قد يستند نظام اقتراح الفيديوهات إلى عوامل مثل:
- الأفلام التي قيّمها أو شاهدها مستخدمون لديهم اهتمامات مشابهة
- النوع والمخرجون والممثلون والفئة الديمغرافية المستهدَفة...
يمكنك الاطّلاع على دورة أنظمة الاقتراحات التدريبية لمزيد من المعلومات.
ReCoRD
الاختصار الخاص بـ مجموعة بيانات الفهم أثناء القراءة مع الاستدلال المنطقي
وحدة خطية مصحَّحة (ReLU)
دالة تنشيط ذات السلوك التالي:
- إذا كان الإدخال سالبًا أو صفرًا، يكون الناتج 0.
- إذا كانت القيمة المدخلة موجبة، تكون القيمة الناتجة مساوية للقيمة المدخلة.
على سبيل المثال:
- إذا كان المدخل -3، يكون الناتج 0.
- إذا كان المدخل +3، يكون الناتج 3.0.
في ما يلي رسم بياني لدالة ReLU:
ReLU هي دالة تنشيط شائعة جدًا. على الرغم من سلوكها البسيط، تتيح دالة ReLU للشبكة العصبية تعلُّم العلاقات غير الخطية بين الميزات والتصنيف.
شبكة عصبونية متكرّرة
الشبكة العصبية التي يتم تشغيلها عمدًا عدة مرات، حيث يتم إدخال أجزاء من كل عملية تشغيل في عملية التشغيل التالية. على وجه التحديد، تقدّم الطبقات المخفية من عملية التشغيل السابقة جزءًا من الإدخال إلى الطبقة المخفية نفسها في عملية التشغيل التالية. تُعدّ الشبكات العصبونية المتكرّرة مفيدة بشكل خاص في تقييم التسلسلات، ما يتيح للطبقات المخفية التعلّم من عمليات التشغيل السابقة للشبكة العصبونية على الأجزاء السابقة من التسلسل.
على سبيل المثال، يعرض الشكل التالي شبكة عصبية متكررة تعمل أربع مرات. لاحظ أنّ القيم التي تم التعرّف عليها في الطبقات المخفية من التشغيل الأول تصبح جزءًا من الإدخال إلى الطبقات المخفية نفسها في التشغيل الثاني. وبالمثل، تصبح القيم التي تم التعرّف عليها في الطبقة المخفية في التشغيل الثاني جزءًا من الإدخال إلى الطبقة المخفية نفسها في التشغيل الثالث. بهذه الطريقة، يتم تدريب الشبكة العصبية المتكررة تدريجيًا وتتوقع معنى التسلسل بأكمله بدلاً من معنى الكلمات الفردية فقط.
النص المرجعي
ردّ خبير على طلب على سبيل المثال، إذا كان الطلب كما يلي:
ترجِم السؤال "ما اسمك؟" من الإنجليزية إلى الفرنسية.
قد يكون ردّ الخبير على النحو التالي:
Comment vous appelez-vous?
تقيس مقاييس مختلفة (مثل ROUGE) مدى تطابق النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة.
التأمّل
استراتيجية لتحسين جودة سير العمل المستند إلى الوكلاء من خلال فحص (التفكير في) ناتج إحدى الخطوات قبل تمرير هذا الناتج إلى الخطوة التالية.
غالبًا ما يكون المدقّق هو LLM نفسه الذي أنشأ الرد (مع أنّه يمكن أن يكون نموذجًا لغويًا كبيرًا مختلفًا). كيف يمكن للنموذج اللغوي الكبير نفسه الذي أنشأ الرد أن يكون حكمًا عادلاً على رده؟ يكمن "الحل" في وضع النموذج اللغوي الكبير في حالة ذهنية نقدية (تأملية). تشبه هذه العملية الكاتب الذي يستخدم عقلية إبداعية لكتابة مسودة أولية ثم ينتقل إلى عقلية نقدية لتعديلها.
على سبيل المثال، تخيَّل سير عمل قائمًا على الذكاء الاصطناعي التوليدي تكون خطوته الأولى هي إنشاء نص لأكواب القهوة. قد يكون الطلب لهذه الخطوة كما يلي:
أنت شخص مبدع. أنشئ نصًا فكاهيًا أصليًا يتألف من أقل من 50 حرفًا ومناسبًا لكوب قهوة.
تخيّل الآن مطالبة التأمّل التالية:
أنت من محبّي القهوة. هل تجد الردّ السابق مضحكًا؟
بعد ذلك، قد لا تنقل سير العمل سوى النصوص التي تحصل على درجة انعكاس عالية إلى المرحلة التالية.
نموذج الانحدار
بشكل غير رسمي، هو نموذج ينشئ توقّعًا رقميًا. (في المقابل، ينشئ نموذج التصنيف توقعًا للفئة). على سبيل المثال، كل ما يلي نماذج انحدار:
- نموذج يتوقّع قيمة منزل معيّن باليورو، مثل 423,000.
- تمثّل هذه السمة نموذجًا يتوقّع متوسط العمر المتوقّع لشجرة معيّنة بالسنوات، مثل 23.2.
- نموذج يتوقّع كمية الأمطار التي ستتساقط بالبوصة في مدينة معيّنة خلال الساعات الست القادمة، مثل 0.18.
في ما يلي نوعان شائعان من نماذج الانحدار:
- الانحدار الخطي: يجد هذا النموذج الخط الذي يطابق قيم التصنيفات مع الميزات على أفضل وجه.
- الانحدار اللوجستي، الذي ينشئ احتمالية تتراوح بين 0.0 و1.0، ويتم عادةً ربطها بتوقّع فئة في النظام.
ليس كل نموذج يعرض توقّعات عددية هو نموذج انحدار. في بعض الحالات، يكون التوقّع الرقمي مجرّد نموذج تصنيف يحتوي على أسماء فئات رقمية. على سبيل المثال، النموذج الذي يتوقّع رمزًا بريديًا رقميًا هو نموذج تصنيف، وليس نموذج انحدار.
التسوية
أي آلية تقلّل من التطابق الزائد تشمل الأنواع الشائعة من التسوية ما يلي:
- L1 regularization
- التسوية L2
- تسوية الإسقاط
- التوقّف المبكر (هذه ليست طريقة تسوية رسمية، ولكن يمكن أن تحدّ بشكل فعّال من الإفراط في التكيّف)
يمكن أيضًا تعريف التسوية على أنّها عقوبة على تعقيد النموذج.
لمزيد من المعلومات، يُرجى الاطّلاع على الإفراط في التكيّف: تعقيد النموذج في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
معدّل التسوية
رقم يحدّد الأهمية النسبية للتسوية أثناء التدريب. تؤدي زيادة معدّل التسوية إلى الحدّ من التطابق الزائد، ولكنها قد تقلّل من قدرة النموذج على التوقّع. في المقابل، يؤدي خفض معدّل التسوية أو إغفاله إلى زيادة الملاءمة الزائدة.
لمزيد من المعلومات، يمكنك الاطّلاع على التدريب الزائد: التسوية L2 في "دورة مكثّفة حول تعلّم الآلة".
التعلّم المعزّز (RL)
مجموعة من الخوارزميات التي تتعلّم سياسة مثالية، هدفها تحقيق الحد الأقصى من العائد عند التفاعل مع بيئة. على سبيل المثال، المكافأة النهائية في معظم الألعاب هي الفوز. يمكن أن تصبح أنظمة التعلّم المعزّز خبيرة في لعب ألعاب معقّدة من خلال تقييم تسلسلات الحركات السابقة التي أدّت في النهاية إلى الفوز، وتسلسلات الحركات التي أدّت في النهاية إلى الخسارة.
التعلّم المعزّز من الردود البشرية (RLHF)
استخدام ملاحظات من مقيّمين بشريين لتحسين جودة ردود النموذج على سبيل المثال، يمكن لآلية RLHF أن تطلب من المستخدمين تقييم جودة ردّ النموذج باستخدام إيموجي 👍 أو 👎. يمكن للنظام بعد ذلك تعديل ردوده المستقبلية استنادًا إلى هذه الملاحظات.
ReLU
اختصار وحدة خطية مصحَّحة
مخزن إعادة التشغيل المؤقت
في الخوارزميات المشابهة لخوارزمية شبكة Q العصبية العميقة (DQN)، تشير إلى الذاكرة التي يستخدمها العامل لتخزين عمليات الانتقال بين الحالات لاستخدامها في إعادة تجربة.
نسخة مطابقة
نسخة (أو جزء من) مجموعة تدريب أو نموذج، يتم تخزينها عادةً على جهاز آخر على سبيل المثال، يمكن أن يستخدم النظام الاستراتيجية التالية لتنفيذ التوازي في البيانات:
- وضع نُسخ طبق الأصل من نموذج حالي على أجهزة متعددة
- أرسِل مجموعات فرعية مختلفة من مجموعة التدريب إلى كل نسخة طبق الأصل.
- تجميع تعديلات المَعلمة
يمكن أن تشير النسخة المتطابقة أيضًا إلى نسخة أخرى من خادم الاستدلال. تؤدي زيادة عدد النسخ المتماثلة إلى زيادة عدد الطلبات التي يمكن للنظام تنفيذها في وقت واحد، ولكنها تؤدي أيضًا إلى زيادة تكاليف التنفيذ.
الانحياز لتكرار التقارير
إنّ معدّل تكرار كتابة الأشخاص عن إجراءات أو نتائج أو سمات معيّنة لا يعكس معدّل تكرارها في العالم الحقيقي أو مدى ارتباط سمة معيّنة بفئة من الأفراد. يمكن أن يؤثّر التحيز في إعداد التقارير في تركيبة البيانات التي تتعلّم منها أنظمة تعلُّم الآلة.
على سبيل المثال، في الكتب، تكون الكلمة ضحك أكثر شيوعًا من الكلمة تنفس. من المرجّح أن يحدّد نموذج تعلُّم الآلة الذي يقدّر التكرار النسبي للضحك والتنفس من مجموعة نصوص أنّ الضحك أكثر شيوعًا من التنفس.
لمزيد من المعلومات، يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "دورة تدريبية مكثّفة حول تعلُّم الآلة".
التمثيل
عملية ربط البيانات بميزات مفيدة
إعادة الترتيب
المرحلة الأخيرة من نظام الاقتراحات، التي قد يتم فيها إعادة تقييم العناصر التي تم تسجيلها وفقًا لخوارزمية أخرى (عادةً ما تكون غير مستندة إلى تعلُّم الآلة). تعيد عملية إعادة الترتيب تقييم قائمة العناصر التي تم إنشاؤها في مرحلة التسجيل، وتتّخذ إجراءات مثل:
- استبعاد العناصر التي سبق أن اشتراها المستخدم
- تعزيز نتائج العناصر الأحدث
يمكنك الاطّلاع على إعادة الترتيب في دورة "أنظمة الاقتراحات" التدريبية لمزيد من المعلومات.
رد
النص أو الصور أو المقاطع الصوتية أو الفيديوهات التي يستنتجها نموذج الذكاء الاصطناعي التوليدي. بعبارة أخرى، الطلب هو المعلومات التي يتم إدخالها في نموذج الذكاء الاصطناعي التوليدي، والرد هو الناتج.
مجموعة الردود
مجموعة الردود التي يعرضها نموذج لغوي كبير استجابةً لمجموعة طلبات
التوليد المعزّز بالاسترجاع (RAG)
يشير ذلك إلى أسلوب لتحسين جودة النتائج التي تقدّمها النماذج اللغوية الكبيرة من خلال ربطها بمصادر المعلومات التي تم استرجاعها بعد تدريب النموذج. يحسّن التوليد المعزّز بالاسترجاع دقة ردود النماذج اللغوية الكبيرة من خلال منح النموذج اللغوي الكبير المدرَّب إمكانية الوصول إلى المعلومات التي يتم استرجاعها من قواعد المعرفة أو المستندات الموثوقة.
تشمل الدوافع الشائعة لاستخدام التوليد المعزّز بالاسترجاع ما يلي:
- زيادة الدقة الواقعية للردود التي ينشئها النموذج
- منح النموذج إذن الوصول إلى معلومات لم يتم تدريبه عليها
- تغيير المعرفة التي يستخدمها النموذج
- تمكين النموذج من الاستشهاد بالمصادر
على سبيل المثال، لنفترض أنّ تطبيقًا للكيمياء يستخدم واجهة برمجة التطبيقات PaLM لإنشاء ملخّصات ذات صلة بطلبات بحث المستخدمين. عندما يتلقّى الخلفية في التطبيق طلب بحث، تقوم الخلفية بما يلي:
- يبحث عن البيانات ذات الصلة بطلب بحث المستخدم ("يسترجعها").
- إضافة ("توسيع") بيانات الكيمياء ذات الصلة إلى طلب بحث المستخدم
- يطلب من النموذج اللغوي الكبير إنشاء ملخّص استنادًا إلى البيانات الملحقة.
العودة
في التعلّم المعزّز، عند توفّر سياسة وحالة معيّنتَين، يكون العائد هو مجموع كل المكافآت التي يتوقّع العنصر الحصول عليها عند اتّباع السياسة من الحالة إلى نهاية الحلقة. يأخذ الوكيل في الاعتبار الطبيعة المتأخّرة للمكافآت المتوقّعة من خلال خصم المكافآت وفقًا لعمليات الانتقال بين الحالات المطلوبة للحصول على المكافأة.
لذلك، إذا كان عامل الخصم هو \(\gamma\)، و \(r_0, \ldots, r_{N}\)يشير إلى المكافآت حتى نهاية الحلقة، يكون احتساب العائد على النحو التالي:
مكافأة
في التعلّم التعزيزي، تمثّل المكافأة النتيجة الرقمية لاتّخاذ إجراء في حالة، كما يحدّدها البيئة.
التسوية التربيعية
مرادف التسوية2 يُستخدَم مصطلح التسوية باستخدام الانحدار الحدي بشكل متكرر أكثر في سياقات الإحصاء البحت، بينما يُستخدَم مصطلح التسوية باستخدام 2 بشكل متكرر أكثر في سياقات التعلّم الآلي.
RNN
اختصار الشبكات العصبونية المتكرّرة
منحنى الأمثلة الإيجابية
رسم بياني لمعدّل الموجب الصحيح مقابل معدّل الموجب الخاطئ لمختلف حدود التصنيف في التصنيف الثنائي.
يشير شكل منحنى ROC إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. لنفترض مثلاً أنّ نموذج تصنيف ثنائي يفصل تمامًا بين جميع الفئات السلبية وجميع الفئات الإيجابية:
يبدو منحنى ROC للنموذج السابق على النحو التالي:
في المقابل، يوضح الرسم البياني التالي قيم الانحدار اللوجستي الأولية لنموذج سيئ لا يمكنه فصل الفئات السلبية عن الفئات الإيجابية على الإطلاق:
يبدو منحنى ROC لهذا النموذج على النحو التالي:
في الوقت نفسه، في العالم الحقيقي، تفصل معظم نماذج التصنيف الثنائي بين الفئات الإيجابية والسلبية إلى حد ما، ولكن ليس بشكل مثالي عادةً. لذا، يقع منحنى ROC النموذجي في مكان ما بين الحدّين الأقصى والأدنى:
تحدّد النقطة الأقرب إلى (0.0,1.0) على منحنى ROC نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر عدة مشاكل أخرى من العالم الحقيقي في اختيار الحد الأمثل للتصنيف. على سبيل المثال، قد تتسبّب النتائج السلبية الخاطئة في مشاكل أكثر بكثير من النتائج الإيجابية الخاطئة.
يلخّص مقياس عددي يُسمى AUC منحنى ROC في قيمة واحدة ذات فاصلة عائمة.
التلقين حسب الدور
الطلب هو عبارة عن إدخال يبدأ عادةً بضمير المخاطب أنت، ويطلب من نموذج الذكاء الاصطناعي التوليدي التظاهر بأنّه شخص معيّن أو يؤدي دورًا معيّنًا عند إنشاء الردّ. يمكن أن يساعد الطلب بتحديد الدور نموذج الذكاء الاصطناعي التوليدي في التفكير بطريقة صحيحة لإنشاء ردّ أكثر فائدة. على سبيل المثال، قد يكون أي من الطلبات التالية المتعلقة بالأدوار مناسبًا حسب نوع الرد الذي تبحث عنه:
لديك شهادة دكتوراه في علوم الكمبيوتر.
أنت مهندس برامج يستمتع بتقديم شروحات صبورة حول لغة Python للطلاب الجدد في مجال البرمجة.
أنت بطل أفلام أكشن ولديك مجموعة مهارات برمجة مميزة. أريد تأكيدًا بأنّك ستعثر على عنصر معيّن في قائمة Python.
الجذر
العقدة الأولية (الشرط الأول) في شجرة القرارات حسب الاصطلاح، تضع المخططات الجذر في أعلى شجرة القرارات. على سبيل المثال:
الدليل الجذري
الدليل الذي تحدّده لاستضافة الأدلة الفرعية لملفات نقاط التفتيش والأحداث الخاصة بنماذج متعددة في TensorFlow
جذر الخطأ التربيعي المتوسّط (RMSE)
الجذر التربيعي لمتوسط الخطأ التربيعي
الثبات الدوراني
في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير اتجاه الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على مضرب تنس سواء كان متجهًا للأعلى أو للجانب أو للأسفل. يُرجى العِلم أنّ الثبات الدوراني ليس مرغوبًا فيه دائمًا، فعلى سبيل المثال، لا يجب تصنيف الرقم 9 المقلوب على أنّه 9.
راجِع أيضًا الثبات الانتقالي والثبات الحجمي.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
مجموعة من المقاييس التي تقيّم نماذج التلخيص التلقائي والترجمة الآلية. تحدّد مقاييس ROUGE مدى تطابق النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة. يقيس كل مقياس من مقاييس عائلة ROUGE التداخل بطريقة مختلفة. تشير نتائج ROUGE الأعلى إلى تشابه أكبر بين النص المرجعي والنص الذي تم إنشاؤه مقارنةً بنتائج ROUGE الأقل.
يُنشئ كل فرد من عائلة مقاييس ROUGE عادةً المقاييس التالية:
- الدقة
- التذكُّر
- F1
للاطّلاع على التفاصيل والأمثلة، يُرجى الرجوع إلى:
ROUGE-L
أحد مقاييس عائلة ROUGE يركّز على طول أطول تسلسل فرعي مشترك في النص المرجعي والنص الذي تم إنشاؤه. تحسب الصيغ التالية مقياسَي التذكّر والدقة في مقياس ROUGE-L:
يمكنك بعد ذلك استخدام F1 لتجميع مقياسَي ROUGE-L recall وROUGE-L precision في مقياس واحد:
تتجاهل مقياس ROUGE-L أي أسطر جديدة في النص المرجعي والنص الذي تم إنشاؤه، لذا يمكن أن يتضمّن أطول تسلسل فرعي مشترك عدة جمل. عندما يتضمّن النص المرجعي والنص الذي تم إنشاؤه جملًا متعددة، يكون استخدام مقياس ROUGE-Lsum، وهو صيغة معدّلة من مقياس ROUGE-L، أفضل بشكل عام. يحدّد مقياس ROUGE-Lsum أطول تسلسل فرعي مشترك لكل جملة في فقرة، ثم يحسب متوسط أطول التسلسلات الفرعية المشتركة.
ROUGE-N
مجموعة من المقاييس ضمن عائلة ROUGE التي تقارن بين N-grams المشتركة بحجم معيّن في النص المرجعي والنص الذي تم إنشاؤه. على سبيل المثال:
- يقيس مقياس ROUGE-1 عدد الرموز المميزة المشتركة في النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-2 عدد ثنائيات الحروف (ثنائيات الحروف) المشتركة بين النص المرجعي والنص الذي تم إنشاؤه.
- يقيس مقياس ROUGE-3 عدد الثلاثيات المشتركة (3-grams) في النص المرجعي والنص الذي تم إنشاؤه.
يمكنك استخدام الصيغ التالية لاحتساب مقياسَي التذكّر والدقة في ROUGE-N لأي عنصر من عناصر عائلة ROUGE-N:
يمكنك بعد ذلك استخدام F1 لتجميع مقياسَي ROUGE-N recall وROUGE-N precision في مقياس واحد:
ROUGE-S
شكل من أشكال ROUGE-N يتيح مطابقة skip-gram. أي أنّ مقياس ROUGE-N لا يحتسب سوى N-grams التي تتطابق تمامًا، ولكن مقياس ROUGE-S يحتسب أيضًا N-grams التي تفصل بينها كلمة واحدة أو أكثر. على سبيل المثال، يمكنك القيام بما يلي:
- النص المرجعي: غيوم بيضاء
- النص من إنشاء الذكاء الاصطناعي: سُحب بيضاء متطايرة
عند احتساب مقياس ROUGE-N، لا يتطابق المقطع الثنائي غيوم بيضاء مع غيوم بيضاء متراكمة. ومع ذلك، عند احتساب مقياس ROUGE-S، فإنّ السحب البيضاء تتطابق مع السحب البيضاء المتصاعدة.
معامل التحديد
مقياس الانحدار الذي يشير إلى مقدار التباين في تصنيف بسبب ميزة فردية أو مجموعة ميزات قيمة R^2 هي قيمة بين 0 و1، ويمكن تفسيرها على النحو التالي:
- تشير قيمة R-squared البالغة 0 إلى أنّ أي اختلاف في التصنيف لا يعود إلى مجموعة الميزات.
- يشير معامل التحديد البالغ 1 إلى أنّ كل التباين في التصنيف يرجع إلى مجموعة الميزات.
- يشير معامل تحديد بين 0 و1 إلى مدى إمكانية توقّع التباين في التصنيف من ميزة معيّنة أو مجموعة ميزات. على سبيل المثال، يعني معامل التحديد البالغ 0.10 أنّ %10 من التباين في التصنيف يرجع إلى مجموعة الميزات، ويعني معامل التحديد البالغ 0.20 أنّ %20 من التباين يرجع إلى مجموعة الميزات، وهكذا.
معامل التحديد هو مربع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأساسية.
RTE
اختصار التعرّف على الاستلزام النصي
S
انحياز في جمع العيّنات
اطّلِع على الانحياز في الاختيار.
جمع العيّنات مع الاستبدال
طريقة لاختيار عناصر من مجموعة عناصر مرشّحة، حيث يمكن اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الإحلال" أنّه بعد كل عملية اختيار، يتم إرجاع العنصر المحدّد إلى مجموعة العناصر المرشّحة. أما الطريقة العكسية، أي جمع العيّنات بدون استبدال، فتعني أنّه لا يمكن اختيار عنصر مرشّح إلا مرة واحدة.
على سبيل المثال، ضع في اعتبارك مجموعة الفاكهة التالية:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}لنفترض أنّ النظام يختار fig عشوائيًا كعنصر أول.
في حال استخدام أخذ العيّنات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}نعم، إنّها المجموعة نفسها كما في السابق، لذا قد يختار النظام fig مرة أخرى.
في حال استخدام أخذ العيّنات بدون استبدال، لا يمكن اختيار عيّنة مرة أخرى بعد اختيارها. على سبيل المثال، إذا اختار النظام عشوائيًا fig كأول عيّنة، لا يمكن اختيار fig مرة أخرى. لذلك، يختار النظام العيّنة الثانية من المجموعة التالية (المخفَّضة):
fruit = {kiwi, apple, pear, cherry, lime, mango}SavedModel
التنسيق المقترَح لحفظ نماذج TensorFlow واستردادها SavedModel هو تنسيق تسلسل قابل للاسترداد ومستقل عن اللغة، ما يتيح للأنظمة والأدوات ذات المستوى الأعلى إنشاء نماذج TensorFlow واستهلاكها وتحويلها.
راجِع قسم الحفظ والاستعادة في دليل مبرمجي TensorFlow للحصول على التفاصيل الكاملة.
موفّر
عنصر TensorFlow المسؤول عن حفظ نقاط التحقّق من النموذج
الكمية القياسية
رقم واحد أو سلسلة واحدة يمكن تمثيلها على شكل موتر برتبة 0. على سبيل المثال، ينشئ كل سطر من سطور الرمز البرمجي التالية قيمة عددية في TensorFlow:
breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)التحجيم
أي تحويل أو أسلوب رياضي يؤدي إلى تغيير نطاق تصنيف أو قيمة ميزة أو كليهما. بعض أشكال القياس مفيدة جدًا في عمليات التحويل، مثل التسوية.
تشمل الأشكال الشائعة للتوسيع المفيدة في تعلُّم الآلة ما يلي:
- القياس الخطي الذي يستخدم عادةً مزيجًا من الطرح والقسمة لاستبدال القيمة الأصلية برقم بين -1 و+1 أو بين 0 و1
- القياس اللوغاريتمي، الذي يستبدل القيمة الأصلية بلوغاريتمها.
- التسوية باستخدام النتيجة المعيارية، والتي تستبدل القيمة الأصلية بقيمة نقطة عائمة تمثّل عدد الانحرافات المعيارية عن متوسط هذه السمة
scikit-learn
منصة شائعة مفتوحة المصدر لتعلُّم الآلة يمكنك الاطّلاع على scikit-learn.org.
تسجيل النتائج
الجزء من نظام الاقتراحات الذي يقدّم قيمة أو ترتيبًا لكل عنصر تم إنتاجه في مرحلة إنشاء المرشّحين.
الانحياز في الاختيار
أخطاء في الاستنتاجات المستخلَصة من البيانات المأخوذة من عيّنات بسبب عملية اختيار تؤدي إلى اختلافات منهجية بين العيّنات المرصودة في البيانات والعيّنات غير المرصودة تتوفّر أشكال التحيز في الاختيار التالية:
- تحيز التغطية: لا تتطابق المجموعة الإحصائية الممثلة في مجموعة البيانات مع المجموعة الإحصائية التي يتنبأ بها نموذج تعلُّم الآلة.
- تحيّز أخذ العيّنات: لا يتم جمع البيانات بشكل عشوائي من المجموعة المستهدَفة.
- تحيّز عدم الاستجابة (يُعرف أيضًا باسم تحيّز المشاركة): يختار المستخدمون من بعض المجموعات عدم المشاركة في الاستطلاعات بمعدلات مختلفة عن المستخدمين من المجموعات الأخرى.
على سبيل المثال، لنفترض أنّك بصدد إنشاء نموذج تعلُّم آلي يتوقّع مدى استمتاع الأشخاص بفيلم معيّن. لجمع بيانات التدريب، توزّع استطلاعًا على كل شخص في الصف الأمامي من قاعة سينما تعرض الفيلم. قد تبدو هذه الطريقة معقولة لجمع مجموعة بيانات، ولكن قد يؤدي هذا النوع من جمع البيانات إلى حدوث أشكال التحيز التالية عند الاختيار:
- تحيّز التغطية: من خلال أخذ عيّنات من مجموعة من الأشخاص الذين اختاروا مشاهدة الفيلم، قد لا تكون توقّعات نموذجك قابلة للتعميم على الأشخاص الذين لم يعبّروا عن هذا المستوى من الاهتمام بالفيلم.
- تحيّز أخذ العيّنات: بدلاً من أخذ عيّنات عشوائية من المجموعة المستهدَفة (جميع الأشخاص في السينما)، أخذت عيّنات من الأشخاص في الصف الأمامي فقط. من المحتمل أنّ الأشخاص الجالسين في الصف الأمامي كانوا أكثر اهتمامًا بالفيلم من الأشخاص الجالسين في الصفوف الأخرى.
- تحيّز عدم الاستجابة: بشكل عام، يميل الأشخاص الذين لديهم آراء قوية إلى الرد على الاستطلاعات الاختيارية بشكل متكرر أكثر من الأشخاص الذين لديهم آراء معتدلة. بما أنّ استطلاع الأفلام اختياري، من المرجّح أن تشكّل الردود توزيعًا ثنائي المنوال بدلاً من التوزيع الطبيعي (على شكل جرس).
الاهتمام الذاتي (يُعرف أيضًا باسم طبقة الاهتمام الذاتي)
طبقة شبكة عصبية تحوّل تسلسلاً من عمليات التضمين (مثل عمليات تضمين الرموز المميزة) إلى تسلسل آخر من عمليات التضمين. يتم إنشاء كل تضمين في التسلسل الناتج من خلال دمج المعلومات من عناصر التسلسل المدخل من خلال آلية انتباه.
يشير جزء الاهتمام الذاتي في آلية الاهتمام الذاتي إلى تسلسل الاهتمام بنفسه بدلاً من سياق آخر. تُعدّ آلية الانتباه الذاتي إحدى اللبنات الأساسية في المحوّلات، وتستخدم مصطلحات البحث في القاموس، مثل "الاستعلام" و"المفتاح" و "القيمة".
تبدأ طبقة الانتباه الذاتي بسلسلة من تمثيلات الإدخال، تمثيل واحد لكل كلمة. يمكن أن يكون تمثيل الإدخال لكلمة عبارة عن تضمين بسيط. بالنسبة إلى كل كلمة في تسلسل الإدخال، تقيِّم الشبكة مدى صلة الكلمة بكل عنصر في التسلسل الكامل للكلمات. تحدّد نتائج الصلة مدى تضمين التمثيل النهائي للكلمة لتمثيلات الكلمات الأخرى.
على سبيل المثال، فكِّر في الجملة التالية:
لم يعبر الحيوان الشارع لأنّه كان متعبًا جدًا.
يوضّح الرسم التوضيحي التالي (من Transformer: A Novel Neural Network Architecture for Language Understanding) نمط الانتباه في طبقة الانتباه الذاتي للضمير it، حيث يشير مدى غمق كل خط إلى مقدار مساهمة كل كلمة في التمثيل:
تُبرز طبقة الانتباه الذاتي الكلمات ذات الصلة بـ "ذلك". في هذه الحالة، تعلّمت طبقة الانتباه تمييز الكلمات التي قد تشير إليها، مع إعطاء أعلى وزن لكلمة حيوان.
بالنسبة إلى تسلسل من n رموز مميزة، يحوّل الانتباه الذاتي تسلسلًا من عمليات التضمين n مرات منفصلة، مرة واحدة في كل موضع في التسلسل.
يمكنك أيضًا الرجوع إلى الانتباه والانتباه الذاتي المتعدد الرؤوس.
التعلّم الذاتي الموجَّه
مجموعة من الأساليب لتحويل مشكلة تعلُّم الآلة غير الموجَّه إلى مشكلة تعلُّم الآلة الموجَّه من خلال إنشاء تصنيفات بديلة من أمثلة غير مصنَّفة.
تستخدم بعض النماذج المستندة إلى Transformer، مثل BERT، التعلّم الذاتي الخاضع للإشراف.
التدريب الذاتي الموجَّه هو أحد أساليب التعلّم شبه الموجَّه.
التدريب الذاتي
هي نوع من التعلّم الذاتي بإشراف جزئي، وتكون مفيدة بشكل خاص عند استيفاء جميع الشروط التالية:
- نسبة الأمثلة غير المصنَّفة إلى الأمثلة المصنَّفة في مجموعة البيانات مرتفعة.
- هذه مشكلة تصنيف.
تعمل عملية التدريب الذاتي من خلال تكرار الخطوتَين التاليتَين إلى أن يتوقف النموذج عن التحسّن:
- استخدِم تعلُّم الآلة الموجَّه لتدريب نموذج على الأمثلة المصنّفة.
- استخدِم النموذج الذي تم إنشاؤه في الخطوة 1 لإنشاء توقعات (تصنيفات) بشأن الأمثلة غير المصنَّفة، ونقِّل الأمثلة التي تتضمّن مستوى ثقة عاليًا إلى الأمثلة المصنَّفة مع التصنيف المتوقّع.
لاحظ أنّ كل تكرار للخطوة 2 يضيف المزيد من الأمثلة المصنّفة للخطوة 1 للتدريب عليها.
التعلّم شبه الموجَّه
تدريب نموذج على بيانات تتضمّن بعض الأمثلة التدريبية التي تحمل تصنيفات، بينما لا تحمل أمثلة أخرى أي تصنيفات تتمثّل إحدى تقنيات التعلّم شبه الموجَّه في استنتاج التصنيفات للأمثلة غير المصنَّفة، ثم التدريب على التصنيفات المستنتَجة لإنشاء نموذج جديد. يمكن أن يكون التعلّم شبه الموجَّه مفيدًا إذا كان الحصول على التصنيفات مكلفًا، ولكن تتوفّر أمثلة غير مصنَّفة بكميات كبيرة.
التدريب الذاتي هو إحدى تقنيات التعلّم شبه الموجَّه.
سمة حسّاسة
سمة بشرية قد تُمنح اعتبارًا خاصًا لأسباب قانونية أو أخلاقية أو اجتماعية أو شخصيةتحليل المشاعر
استخدام خوارزميات إحصائية أو خوارزميات تعلُّم آلي لتحديد الموقف العام لمجموعة معيّنة، سواء كان إيجابيًا أو سلبيًا، تجاه خدمة أو منتج أو مؤسسة أو موضوع على سبيل المثال، باستخدام فهم اللغة الطبيعية، يمكن لخوارزمية إجراء تحليل للمشاعر بشأن الملاحظات النصية الواردة من دورة جامعية لتحديد مدى إعجاب الطلاب بالدورة أو عدم إعجابهم بها بشكل عام.
يمكنك الاطّلاع على دليل تصنيف النصوص للحصول على مزيد من المعلومات.
نموذج تسلسلي
نموذج تعتمد مدخلاته على ترتيبها. على سبيل المثال، توقّع الفيديو التالي الذي سيشاهده المستخدم من سلسلة فيديوهات شاهدها سابقًا.
مهمة من تسلسل إلى تسلسل
مهمة تحوّل تسلسلاً من الرموز المميزة إلى تسلسل من الرموز المميزة. على سبيل المثال، هناك نوعان شائعان من مهام التسلسل إلى التسلسل، وهما:
- المترجمون:
- تسلسل الإدخال النموذجي: "أحبك".
- تسلسل الناتج النموذجي: "Je t'aime".
- الإجابة عن الأسئلة:
- مثال على تسلسل الإدخال: "هل أحتاج إلى سيارتي في نيويورك؟"
- تسلسل الناتج النموذجي: "لا، من الأفضل أن تبقى سيارتك في المنزل".
حصة طعام
هي عملية جعل النموذج المدرَّب متاحًا لتقديم التوقعات من خلال الاستنتاج المباشر أو الاستنتاج غير المباشر.
الشكل (Tensor)
تمثّل هذه السمة عدد العناصر في كل بُعد من الموتر. يتم تمثيل الشكل كقائمة من الأعداد الصحيحة. على سبيل المثال، يحتوي الموتر الثنائي الأبعاد التالي على شكل [3,4]:
[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]
تستخدم TensorFlow تنسيق الصف الرئيسي (نمط C) لتمثيل ترتيب الأبعاد، ولهذا السبب يكون الشكل في TensorFlow هو [3,4] بدلاً من [4,3]. بعبارة أخرى، في TensorFlow Tensor ثنائي الأبعاد، يكون الشكل
هو [عدد الصفوف، عدد الأعمدة].
الشكل الثابت هو شكل موتر معروف في وقت الترجمة البرمجية.
يكون الشكل الديناميكي غير معروف في وقت الترجمة البرمجية، وبالتالي يعتمد على بيانات وقت التشغيل. يمكن تمثيل هذا الموتر باستخدام سمة عنصر نائب في TensorFlow، كما هو موضّح في [3, ?].
شظية
تقسيم منطقي لمجموعة التدريب أو النموذج عادةً، تنشئ بعض العمليات أجزاءً من خلال تقسيم الأمثلة أو المَعلمات إلى أجزاء متساوية الحجم (عادةً). بعد ذلك، يتم تعيين كل جزء إلى جهاز مختلف.
يُطلق على تقسيم النموذج اسم التوازي على مستوى النموذج، ويُطلق على تقسيم البيانات اسم التوازي على مستوى البيانات.
الانكماش
المعلَمة الفائقة في تعزيز التدرّج التي تتحكّم في التكيّف الزائد يشبه الانكماش في تعزيز التدرّج معدّل التعلّم في النزول المتدرّج. الانكماش هو قيمة عشرية تتراوح بين 0.0 و1.0. تؤدي قيمة الانكماش المنخفضة إلى تقليل التكيّف الزائد بشكل أكبر من قيمة الانكماش المرتفعة.
التقييم جنبًا إلى جنب
مقارنة جودة نموذجَين من خلال تقييم استجاباتهما للمطالبة نفسها على سبيل المثال، لنفترض أنّ الطلب التالي تم تقديمه إلى نموذجين مختلفين:
أنشِئ صورة لكلب لطيف يلهو بثلاث كرات.
في التقييم جنبًا إلى جنب، يختار المقيّم الصورة "الأفضل" (الأكثر دقة؟ أكثر جمالاً؟ أكثر جاذبية؟).
الدالّة الإسية
دالة رياضية "تضغط" قيمة إدخال في نطاق محدود، عادةً من 0 إلى 1 أو من -1 إلى +1. أي أنّه يمكنك تمرير أي رقم (اثنان أو مليون أو مليار سالب أو أي رقم آخر) إلى دالة Sigmoid وسيظل الناتج ضمن النطاق المحدود. يبدو الرسم البياني لدالة التنشيط السينية كما يلي:
تُستخدم الدالة السينية في العديد من المجالات في التعلّم الآلي، بما في ذلك:
- تحويل الناتج الأوّلي لنموذج الانحدار اللوجستي أو نموذج الانحدار المتعدد الحدود إلى احتمالية
- العمل كدالة تنشيط في بعض الشبكات العصبية
مقياس التشابه
في خوارزميات التجميع، يشير ذلك المصطلح إلى المقياس المستخدَم لتحديد مدى التشابه بين أي مثالَين.
برنامج واحد / بيانات متعددة (SPMD)
يشير ذلك إلى أسلوب توازٍ يتم فيه تنفيذ عملية حسابية نفسها على بيانات إدخال مختلفة بشكل متوازٍ على أجهزة مختلفة. والهدف من هذه التقنية هو الحصول على النتائج بشكل أسرع. وهو النمط الأكثر شيوعًا للبرمجة المتوازية.
الثبات الحجمي
في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير حجم الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على قطة سواء كانت تستهلك مليوني بكسل أو 200 ألف بكسل. يُرجى العلم أنّه حتى أفضل خوارزميات تصنيف الصور لا تزال لها حدود عملية بشأن ثبات الحجم. على سبيل المثال، من غير المرجّح أن تصنّف خوارزمية (أو شخص) صورة قطة بشكل صحيح إذا كانت تشغل 20 بكسل فقط.
راجِع أيضًا الثبات الانتقالي والثبات الدوراني.
يمكنك الاطّلاع على دورة التجميع لمزيد من المعلومات.
الرسم
في تعلُّم الآلة غير الموجّه، يتم استخدام فئة من الخوارزميات التي تجري تحليلاً أوليًا لتحديد التشابه في الأمثلة. تستخدم خوارزميات التخطيط دالة تجزئة حساسة للموقع الجغرافي لتحديد النقاط التي من المحتمل أن تكون متشابهة، ثم يتم تجميعها في حِزم.
يقلّل التخطيط من العمليات الحسابية المطلوبة لاحتساب التشابه في مجموعات البيانات الكبيرة. بدلاً من حساب التشابه لكل زوج من الأمثلة في مجموعة البيانات، نحسب التشابه لكل زوج من النقاط داخل كل مجموعة فقط.
skip-gram
مخطط N-gram قد يحذف (أو "يتخطّى") كلمات من السياق الأصلي، ما يعني أنّ الكلمات N قد لا تكون متجاورة في الأصل. وبشكل أكثر دقة، فإنّ "k-skip-n-gram" هو n-gram يمكن فيه تخطّي ما يصل إلى k كلمة.
على سبيل المثال، تحتوي عبارة "the quick brown fox" على ثنائيات الحروف المحتملة التالية:
- "the quick"
- "quick brown"
- "ثعلب بني"
"1-skip-2-gram" هو زوج من الكلمات بينهما كلمة واحدة على الأكثر. وبالتالي، فإنّ عبارة "the quick brown fox" تتضمّن ما يلي من ثنائيات 1-skip 2-gram:
- "the brown"
- "الثعلب السريع"
بالإضافة إلى ذلك، جميع الثنائيات هي أيضًا ثنائيات بمسافة فاصلة واحدة، لأنّه يمكن تخطّي أقل من كلمة واحدة.
تكون نماذج skip-gram مفيدة لفهم المزيد من السياق المحيط بكلمة معيّنة. في المثال، تم ربط الكلمة "fox" مباشرةً بالكلمة "quick" في مجموعة 1-skip-2-grams، ولكن ليس في مجموعة 2-grams.
تساعد skip-grams في تدريب نماذج تضمين الكلمات.
softmax
دالة تحدّد احتمالات كل فئة ممكنة في نموذج تصنيف متعدّد الفئات. ويجب أن يكون مجموع الاحتمالات 1.0 بالضبط. على سبيل المثال، يوضّح الجدول التالي كيف توزع دالة softmax الاحتمالات المختلفة:
| الصورة عبارة عن... | الاحتمالية |
|---|---|
| كلب | .85 |
| هرّ | .13 |
| حصان | .02 |
يُطلق على Softmax أيضًا اسم full softmax.
يختلف عن تحليل العينات المُحتملة.
يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "الدورة التدريبية المكثّفة حول تعلُّم الآلة" للحصول على مزيد من المعلومات.
ضبط الطلبات اللينة
هي تقنية لتحسين نموذج لغوي كبير لأداء مهمة معيّنة، بدون الحاجة إلى تحسين يستهلك الكثير من الموارد. بدلاً من إعادة تدريب جميع الأوزان في النموذج، تعمل عملية الضبط الدقيق باستخدام المطالبات السلسة على تعديل المطالبة تلقائيًا لتحقيق الهدف نفسه.
عند تقديم طلب نصي، تعمل عملية ضبط الطلب السلس عادةً على إلحاق تضمينات رموز مميزة إضافية بالطلب، وتستخدم الانتشار الخلفي لتحسين الإدخال.
يحتوي الطلب "الصعب" على رموز مميّزة فعلية بدلاً من تضمينات الرموز المميّزة.
خاصية متناثرة
ميزة تكون قيمها في الغالب صفرًا أو فارغة. على سبيل المثال، تكون الميزة التي تحتوي على قيمة واحدة تساوي 1 ومليون قيمة تساوي 0 متفرقة. في المقابل، تحتوي الميزة الكثيفة على قيم ليست صفرًا أو فارغة في الغالب.
في التعلّم الآلي، يكون عدد كبير من الميزات ميزات متفرقة. السمات الفئوية هي عادةً سمات متناثرة. على سبيل المثال، من بين 300 نوع ممكن من الأشجار في غابة، قد يحدّد مثال واحد شجرة قيقب فقط. أو من بين ملايين الفيديوهات المحتملة في مكتبة فيديوهات، قد يحدّد مثال واحد فيلم "كازابلانكا" فقط.
في النموذج، يتم عادةً تمثيل الميزات المتفرقة باستخدام الترميز الأحادي. إذا كان الترميز الواحد الفعّال كبيرًا، يمكنك وضع طبقة تضمين فوق الترميز الواحد الفعّال لتحقيق كفاءة أكبر.
التمثيل المتناثر
تخزين مواضع العناصر غير الصفرية فقط في ميزة متفرقة
على سبيل المثال، لنفترض أنّ ميزة فئوية باسم species تحدّد 36 نوعًا من الأشجار في غابة معيّنة. افترض أيضًا أنّ كل مثال يحدّد نوعًا واحدًا فقط.
يمكنك استخدام متجه الترميز الأحادي لتمثيل أنواع الأشجار في كل مثال.
سيتضمّن المتجه ذو الترميز النشط الواحد 1 واحدًا (لتمثيل نوع الشجرة المحدّد في هذا المثال) و35 0 (لتمثيل أنواع الأشجار الـ 35 غير المحدّدة في هذا المثال). لذا، قد يبدو التمثيل باستخدام الترميز الساخن الواحد
للحرف maple على النحو التالي:
بدلاً من ذلك، يمكن أن يحدّد التمثيل المتفرّق موضع النوع المعيّن. إذا كان maple في الموضع 24، سيكون التمثيل المتناثر
لـ maple على النحو التالي:
24
لاحظ أنّ التمثيل المتفرّق أكثر إيجازًا من التمثيل بترميز one-hot.
لمزيد من المعلومات، راجِع استخدام البيانات الفئوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".
متّجه متناثر
متّجه تكون قيمه في الغالب أصفارًا راجِع أيضًا الميزة الخفيفة والخفة.
مقياس التناثر
عدد العناصر التي تم ضبطها على صفر (أو قيمة فارغة) في متّجه أو مصفوفة مقسومًا على إجمالي عدد الإدخالات في هذا المتّجه أو المصفوفة على سبيل المثال، لنفترض أنّ لديك مصفوفة تتضمّن 100 عنصر، منها 98 خلية تحتوي على القيمة صفر. يتم احتساب مقياس التناثر على النحو التالي:
تشير ندرة الخصائص إلى ندرة خط متجه للخصائص، وتشير ندرة النماذج إلى ندرة أوزان النموذج.
الاختزال المكاني
اطّلِع على التجميع.
الترميز الوصفي
عملية كتابة ملف وتعديله بلغة بشرية (مثل الإنجليزية) يصف البرنامج. يمكنك بعد ذلك أن تطلب من نموذج ذكاء اصطناعي توليدي أو مهندس برمجيات آخر إنشاء البرنامج الذي يتوافق مع هذا الوصف.
يتطلّب الرمز البرمجي الذي يتم إنشاؤه تلقائيًا عادةً تكرارًا. في الترميز المحدّد، يمكنك تكرار ملف الوصف. في المقابل، في الترميز الحواري، يمكنك تكرار العملية داخل مربّع الطلب. في الممارسة العملية، يتضمّن إنشاء الرموز البرمجية تلقائيًا أحيانًا مزيجًا من كل من الترميز التحديدي والترميز الحواري.
تقسيم
في شجرة القرار، هو اسم آخر للشرط.
المقسّم
أثناء تدريب شجرة القرارات، يتم استخدام الروتين (والخوارزمية) المسؤول عن العثور على أفضل شرط عند كل عقدة.
SPMD
اختصار برنامج واحد / بيانات متعددة
SQuAD
اختصار مجموعة بيانات ستانفورد للأسئلة والأجوبة، تم تقديمه في الورقة البحثية SQuAD: أكثر من 100,000 سؤال حول فهم الآلة للنصوص. تتضمّن مجموعة البيانات هذه أسئلة طرحها مستخدمون حول مقالات ويكيبيديا. تتضمّن بعض الأسئلة في مجموعة بيانات SQuAD إجابات، بينما لا تتضمّن أسئلة أخرى إجابات عن قصد. لذلك، يمكنك استخدام مجموعة بيانات SQuAD لتقييم قدرة نموذج اللغة الكبير على تنفيذ ما يلي:
- الإجابة عن الأسئلة التي يمكن الإجابة عنها
- تحديد الأسئلة التي لا يمكن الإجابة عنها
المطابقة التامة مع F1 هما المقياسان الأكثر شيوعًا لتقييم النماذج اللغوية الكبيرة (LLM) مقارنةً بمجموعة بيانات SQuAD.
تربيع الخسارة المفصلية
مربّع الخسارة المفصلية تفرض الخسارة المفصلية المربّعة عقوبة أشد على القيم الشاذة مقارنةً بالخسارة المفصلية العادية.
الخسارة التربيعية
مرادف الخسارة التربيعية2
التدريب على مراحل
أسلوب لتدريب نموذج في سلسلة من المراحل المنفصلة يمكن أن يكون الهدف هو تسريع عملية التدريب أو تحقيق جودة أفضل للنموذج.
في ما يلي صورة توضيحية لأسلوب التجميع التدريجي:
- تحتوي المرحلة 1 على 3 طبقات مخفية، وتحتوي المرحلة 2 على 6 طبقات مخفية، وتحتوي المرحلة 3 على 12 طبقة مخفية.
- تبدأ المرحلة 2 التدريب باستخدام الأوزان التي تم تعلّمها في 3 طبقات مخفية من المرحلة 1. تبدأ المرحلة 3 التدريب باستخدام الأوزان التي تم تعلّمها في 6 طبقات مخفية من المرحلة 2.
اطّلِع أيضًا على تجميع الطلبات.
الولاية
في التعلّم المعزّز، تشير الحالة إلى قيم المَعلمات التي تصف الإعداد الحالي للبيئة، والتي يستخدمها الوكيل لاختيار إجراء.
دالة قيمة الحالة والإجراء
مرادف لدالة Q
ثابت
إجراء يتم تنفيذه مرة واحدة بدلاً من تنفيذه بشكل مستمر المصطلحان ثابت وبلا إنترنت مترادفان. في ما يلي الاستخدامات الشائعة للبيانات الثابتة وغير المتصلة بالإنترنت في تعلّم الآلة:
- النموذج الثابت (أو النموذج بلا إنترنت) هو نموذج يتم تدريبه مرة واحدة ثم استخدامه لفترة من الوقت.
- التدريب الثابت (أو التدريب بلا اتصال بالإنترنت) هو عملية تدريب نموذج ثابت.
- الاستنتاج الثابت (أو الاستنتاج بلا إنترنت) هو عملية ينشئ فيها النموذج مجموعة من التوقّعات في كل مرة.
يجب أن يكون التباين ديناميكيًا.
الاستنتاج الثابت
مرادف للاستنتاج المؤخَّر
الثبات
سمة لا تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون هذه السمة هي الوقت. على سبيل المثال، تكون إحدى السمات ثابتة إذا كانت قيمها متشابهة تقريبًا في عامَي 2021 و2023.
في العالم الحقيقي، هناك عدد قليل جدًا من الميزات التي تتسم بالثبات. حتى الميزات المرتبطة بالثبات (مثل مستوى سطح البحر) تتغير بمرور الوقت.
يختلف ذلك عن عدم الثبات.
بخطوة
عملية تمرير أمامي وتمرير خلفي لمجموعة واحدة
لمزيد من المعلومات حول عملية المرور الأمامي والمرور الخلفي، يمكنك الاطّلاع على الانتشار العكسي.
حجم الخطوة
مرادف لمعدّل التعلّم.
النزول المتدرّج العشوائي (SGD)
خوارزمية انحدار التدرّج يكون فيها حجم الدفعة واحدًا. بعبارة أخرى، يتم تدريب SGD على مثال واحد يتم اختياره بشكل موحّد وعشوائي من مجموعة التدريب.
يمكنك الاطّلاع على الانحدار الخطي: المعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
قفزة
في عملية الالتفاف أو التجميع، تكون دلتا في كل بُعد من السلسلة التالية من شرائح الإدخال. على سبيل المثال، يوضّح الرسم المتحرّك التالي خطوة (1,1) أثناء عملية التفاف. وبالتالي، تبدأ شريحة الإدخال التالية بموضع واحد على يمين شريحة الإدخال السابقة. عندما تصل العملية إلى الحافة اليسرى، تكون الشريحة التالية على الجانب الأيمن تمامًا ولكن في موضع واحد لأسفل.
يوضّح المثال السابق خطوة ثنائية الأبعاد. إذا كانت مصفوفة الإدخال ثلاثية الأبعاد، سيكون التقدّم أيضًا ثلاثي الأبعاد.
تقليص المخاطر البنيوية (SRM)
خوارزمية توازن بين هدفين:
- الحاجة إلى إنشاء النموذج الأكثر قدرة على التوقّع (على سبيل المثال، أقل خسارة)
- الحاجة إلى إبقاء النموذج بسيطًا قدر الإمكان (على سبيل المثال، التنظيم القوي).
على سبيل المثال، الدالة التي تقلّل الخسارة+التسوية في مجموعة التدريب هي خوارزمية لتقليل المخاطر البنيوية.
يختلف عن تقليص المخاطر التجريبية.
جمع عيّنات جزئية
اطّلِع على التجميع.
الرمز المميز للكلمة الفرعية
في نماذج اللغة، الرمز المميّز هو سلسلة فرعية من كلمة، وقد يكون الكلمة بأكملها.
على سبيل المثال، قد يتم تقسيم كلمة مثل "itemize" إلى جزأين هما "item" (كلمة جذرية) و "ize" (لاحقة)، ويتم تمثيل كل جزء برمز مميز خاص به. يسمح تقسيم الكلمات غير الشائعة إلى أجزاء، تُعرف باسم الكلمات الفرعية، لنماذج اللغة بالعمل على الأجزاء المكوّنة الأكثر شيوعًا للكلمة، مثل البادئات واللاحقات.
في المقابل، قد لا يتم تقسيم الكلمات الشائعة، مثل "ذاهب"، وقد يتم تمثيلها برمز مميز واحد.
ملخّص
في TensorFlow، هي قيمة أو مجموعة من القيم يتم احتسابها في خطوة معيّنة، ويتم استخدامها عادةً لتتبُّع مقاييس النموذج أثناء التدريب.
SuperGLUE
مجموعة من مجموعات البيانات لتقييم قدرة النموذج اللغوي الكبير بشكل عام على فهم النصوص وإنشائها تتألف المجموعة من مجموعات البيانات التالية:
- أسئلة نعم/لا (BoolQ)
- CommitmentBank (CB)
- اختيار البدائل المعقولة (COPA)
- فهم القراءة المتعددة الجمل (MultiRC)
- مجموعة بيانات فهم المقروء باستخدام الاستدلال المنطقي السليم (ReCoRD)
- التعرّف على الاستلزام النصي (RTE)
- الكلمات في السياق (WiC)
- تحدّي مخطط وينوغراد (WSC)
للاطّلاع على التفاصيل، يُرجى الرجوع إلى SuperGLUE: معيار أكثر ثباتًا لأنظمة فهم اللغة للأغراض العامة.
تعلُّم الآلة الموجَّه
تدريب نموذج من الميزات والتصنيفات المقابلة يمكن تشبيه تعلُّم الآلة الخاضع للإشراف بتعلُّم موضوع معيّن من خلال دراسة مجموعة من الأسئلة والإجابات المقابلة لها. بعد إتقان الربط بين الأسئلة والأجوبة، يمكن للطالب تقديم إجابات عن أسئلة جديدة (لم يسبق له رؤيتها) حول الموضوع نفسه.
قارِن ذلك بـ تعلُّم الآلة غير الموجَّه.
يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة في تعلُّم الآلة" للحصول على مزيد من المعلومات.
خاصية مصطنعة
ميزة غير متوفّرة بين الميزات المُدخَلة، ولكن تم تجميعها من ميزة واحدة أو أكثر من الميزات المُدخَلة تشمل طرق إنشاء الميزات الاصطناعية ما يلي:
- تصنيف ميزة مستمرة في حِزم نطاق
- إنشاء ميزة متقاطعة
- ضرب (أو قسمة) قيمة ميزة واحدة على قيم ميزات أخرى أو على نفسها على سبيل المثال، إذا كانت
aوbسمتَين من سمات الإدخال، تكون الأمثلة التالية من السمات المصطنعة:- ab
- a2
- تطبيق دالة متسامية على قيمة سمة على سبيل المثال، إذا كانت
cهي ميزة إدخال، تكون الأمثلة التالية هي ميزات اصطناعية:- sin(c)
- ln(c)
لا تُعتبر الميزات التي يتم إنشاؤها من خلال التسوية أو التحجيم وحدها ميزات اصطناعية.
T
T5
نموذج تعلُّم النقل من نص إلى نص، طوّره فريق Google AI في عام 2020 T5 هو نموذج ترميز-فك ترميز يستند إلى بنية Transformer، وتم تدريبه على مجموعة بيانات كبيرة جدًا. وهو فعّال في مجموعة متنوعة من مهام معالجة اللغة الطبيعية، مثل إنشاء النصوص وترجمة اللغات والإجابة عن الأسئلة بطريقة حوارية.
استمدّت T5 اسمها من أحرف T الخمسة في "Text-to-Text Transfer Transformer".
T5X
إطار عمل مفتوح المصدر لتعلُّم الآلة مصمَّم لإنشاء وتدريب نماذج معالجة اللغات الطبيعية (NLP) على نطاق واسع. يتم تنفيذ T5 على قاعدة بيانات T5X (المستندة إلى JAX وFlax).
التعلم المعزز المستند إلى الجداول
في التعلم المعزّز، يتم تنفيذ التعلم المستند إلى Q باستخدام جدول لتخزين دوال Q لكل مجموعة من الحالات والإجراءات.
الاستهداف
مرادف للتصنيف
الشبكة المستهدَفة
في التعلّم العميق باستخدام Q، يتم استخدام شبكة عصبية تمثّل تقريبًا ثابتًا للشبكة العصبية الرئيسية، حيث تنفّذ الشبكة العصبية الرئيسية إما دالة Q أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q التي تتوقّعها الشبكة المستهدَفة. وبالتالي، يمكنك منع حلقة الملاحظات التي تحدث عندما تدرب الشبكة الرئيسية على قيم Q التي تتوقعها بنفسها. من خلال تجنُّب هذه الملاحظات، يزداد ثبات التدريب.
مهمة
مشكلة يمكن حلّها باستخدام تقنيات تعلُّم الآلة، مثل:
درجة الحرارة
المَعلمة الفائقة التي تتحكّم في درجة العشوائية في ردود النموذج تؤدي درجات الحرارة المرتفعة إلى ناتج أكثر عشوائية، بينما تؤدي درجات الحرارة المنخفضة إلى ناتج أقل عشوائية.
يعتمد اختيار درجة الحرارة الأفضل على التطبيق المحدّد و/أو قيم السلسلة.
بيانات حسب فترة زمنية محدّدة
البيانات المسجّلة في نقاط زمنية مختلفة على سبيل المثال، مبيعات المعاطف الشتوية المسجّلة لكل يوم من أيام السنة هي بيانات زمنية.
Tensor
بنية البيانات الأساسية في برامج TensorFlow الموترات هي بنى بيانات متعددة الأبعاد (يمكن أن يكون عدد الأبعاد كبيرًا جدًا)، وهي غالبًا ما تكون كميات قياسية أو متجهات أو مصفوفات. يمكن أن تحتوي عناصر Tensor على قيم عددية صحيحة أو قيم نقطة عائمة أو قيم سلاسل.
TensorBoard
لوحة البيانات التي تعرض الملخّصات المحفوظة أثناء تنفيذ برنامج واحد أو أكثر من برامج TensorFlow
TensorFlow
منصّة تعلُّم آلي موزّعة على نطاق واسع يشير المصطلح أيضًا إلى طبقة واجهة برمجة التطبيقات الأساسية في حزمة TensorFlow، والتي تتيح إجراء عمليات حسابية عامة على رسومات بيانية لتدفّق البيانات.
على الرغم من أنّ TensorFlow تُستخدَم بشكل أساسي في تعلُّم الآلة، يمكنك أيضًا استخدامها في مهام غير مرتبطة بتعلُّم الآلة تتطلّب إجراء عمليات حسابية رقمية باستخدام رسومات بيانية لتدفّق البيانات.
TensorFlow Playground
برنامج يعرض بشكل مرئي كيف تؤثر المَعلمات الفائقة المختلفة في تدريب النماذج (لا سيما الشبكات العصبية). انتقِل إلى http://playground.tensorflow.org لتجربة TensorFlow Playground.
TensorFlow Serving
منصة لنشر النماذج المدرَّبة في مرحلة الإنتاج
وحدة معالجة الموتّرات (TPU)
شريحة مُدمَجة خاصة بالتطبيقات (ASIC) تعمل على تحسين أداء مهام معالجة تعلُّم الآلة يتم نشر هذه الدوائر المتكاملة الخاصة بالتطبيقات على شكل شرائح TPU متعددة على جهاز TPU.
ترتيب المتّجه
اطّلِع على الترتيب (المتّجه).
شكل المتّجه
عدد العناصر التي يحتوي عليها Tensor في مختلف الأبعاد
على سبيل المثال، يحتوي [5, 10] Tensor على شكل 5 في أحد الأبعاد و10 في بعد آخر.
حجم المتّجه
تمثّل هذه السمة إجمالي عدد القيم العددية التي يحتوي عليها Tensor. على سبيل المثال، يبلغ حجم [5, 10]Tensor 50.
TensorStore
مكتبة لقراءة وكتابة المصفوفات الكبيرة المتعددة الأبعاد بكفاءة
شرط الإنهاء
في التعلم المعزّز، الشروط التي تحدّد متى تنتهي الحلقة، مثل عندما يصل الوكيل إلى حالة معيّنة أو يتجاوز عددًا محددًا من انتقالات الحالة على سبيل المثال، في لعبة الخطوط الثلاثة، تنتهي الحلقة إما عندما يضع أحد اللاعبين علامة في ثلاث مربعات متتالية أو عندما يتم وضع علامة في جميع المربعات.
اختبار
في شجرة القرار، هو اسم آخر للشرط.
فقدان الاختبار
مقياس يمثّل الخسارة التي يتكبّدها النموذج مقارنةً بمجموعة الاختبار عند إنشاء نموذج، تحاول عادةً تقليل خسارة الاختبار. ويرجع ذلك إلى أنّ انخفاض قيمة الخسارة في الاختبار يشكّل إشارة جودة أقوى من انخفاض قيمة الخسارة في التدريب أو انخفاض قيمة الخسارة في التحقّق من الصحة.
يشير الفرق الكبير بين خسارة الاختبار وخسارة التدريب أو خسارة التحقّق أحيانًا إلى أنّه عليك زيادة معدّل التسوية.
مجموعة الاختبار
مجموعة فرعية من مجموعة البيانات محجوزة لاختبار نموذج تم تدريبه.
عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:
- مجموعة تدريب
- مجموعة التحقّق
- مجموعة اختبار
يجب أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة الاختبار.
ترتبط مجموعة التدريب ومجموعة التحقّق ارتباطًا وثيقًا بتدريب النموذج. بما أنّ مجموعة الاختبار مرتبطة بالتدريب بشكل غير مباشر فقط، فإنّ فقدان الاختبار هو مقياس أقل تحيزًا وأعلى جودة من فقدان التدريب أو فقدان التحقّق.
اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
نطاق النص
نطاق فهرس المصفوفة المرتبط بقسم فرعي معيّن من سلسلة نصية
على سبيل المثال، تحتل الكلمة good في سلسلة Python النصية s="Be good now" نطاق النص من 3 إلى 6.
tf.Example
وهو عبارة عن بروتوكول تخزين مؤقت معياري لوصف البيانات المُدخَلة لتدريب نماذج تعلُّم الآلة أو الاستدلال عليها.
tf.keras
هي تنفيذ Keras مدمج في TensorFlow.
الحدّ (لأشجار القرارات)
في الشرط المحاذي للمحور، تكون القيمة هي القيمة التي تتم مقارنة العنصر بها. على سبيل المثال، 75 هي قيمة الحد في الشرط التالي:
grade >= 75
يمكنك الاطّلاع على Exact splitter for binary classification with numerical features في دورة "أشجار القرار" التدريبية للحصول على مزيد من المعلومات.
تحليل السلسلة الزمنية
أحد المجالات الفرعية لتعلُّم الآلة والإحصاءات، وهو يحلّل البيانات الزمنية. تتطلّب العديد من أنواع مشاكل تعلُّم الآلة تحليل السلاسل الزمنية، بما في ذلك التصنيف والتجميع والتوقّع ورصد القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلاسل الزمنية لتوقّع المبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات السابقة.
الخطوة الزمنية
خلية "موسّعة" واحدة ضمن شبكة عصبية متكرّرة على سبيل المثال، يعرض الشكل التالي ثلاث خطوات زمنية (تمت تسميتها بالرموز السفلية t-1 وt وt+1):
الرمز المميز
في النموذج اللغوي، الوحدة الأساسية التي يتدرب عليها النموذج ويجري التوقعات استنادًا إليها. يكون الرمز المميز عادةً أحد ما يلي:
- كلمة، على سبيل المثال، تتألف العبارة "الكلاب تحب القطط" من ثلاث وحدات رمزية للكلمات: "الكلاب" و"تحب" و "القطط".
- حرف، مثلاً، تتألف العبارة "bike fish" من تسعة رموز مميزة. (يُرجى العِلم أنّ المساحة الفارغة تُحتسب كإحدى الرموز المميزة).
- الكلمات الفرعية: يمكن أن تكون كلمة واحدة رمزًا مميزًا واحدًا أو رموزًا مميزة متعددة. تتألف الكلمة الفرعية من كلمة أصلية أو بادئة أو لاحقة. على سبيل المثال، قد ينظر نموذج اللغة الذي يستخدم الكلمات الفرعية كرموز مميزة إلى الكلمة "كلاب" على أنّها رمزان مميزان (الكلمة الجذر "كلب" ولاحقة الجمع "اب"). وقد يرى نموذج اللغة نفسه الكلمة المفردة "أطول" على أنّها كلمتان فرعيتان (الكلمة الجذر "طويل" واللاحقة "أ").
في النطاقات خارج نماذج اللغة، يمكن أن تمثّل الرموز المميزة أنواعًا أخرى من الوحدات الذرية. على سبيل المثال، في مجال رؤية الكمبيوتر، قد يكون الرمز المميز مجموعة فرعية من صورة.
لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة".
أداة تقسيم النص إلى رموز مميّزة
نظام أو خوارزمية تحوّل تسلسلاً من بيانات الإدخال إلى رموز مميّزة.
معظم النماذج الأساسية الحديثة هي متعددة الوسائط. يجب أن يحوّل أداة الترميز لنظام متعدد الوسائط كل نوع إدخال إلى التنسيق المناسب. على سبيل المثال، عند إدخال بيانات تتضمّن نصًا ورسومات، قد يحوّل برنامج الترميز النص المدخَل إلى كلمات فرعية والصور المدخَلة إلى رقع صغيرة. بعد ذلك، يجب أن يحوّل أداة تقسيم النص إلى رموز جميع الرموز المميزة إلى مساحة تضمين موحّدة واحدة، ما يتيح للنموذج "فهم" مجموعة من المدخلات المتعددة الوسائط.
دقة أعلى k
النسبة المئوية لعدد المرات التي يظهر فيها "تصنيف مستهدَف" ضمن أول k مواضع في القوائم التي تم إنشاؤها يمكن أن تكون القوائم اقتراحات مخصّصة أو قائمة بعناصر مرتّبة حسب softmax.
يُعرف مقياس دقة أعلى k أيضًا باسم الدقة عند k.
برج
أحد مكونات الشبكة العصبية العميقة، وهو عبارة عن شبكة عصبية عميقة في حد ذاته. في بعض الحالات، يقرأ كل برج من مصدر بيانات مستقل، وتبقى هذه الأبراج مستقلة إلى أن يتم دمج ناتجها في طبقة نهائية. في حالات أخرى (مثل المشفّر والمفكّر في بنية العديد من المحوّلات)، تتضمّن البنية اتصالات متبادلة بين بعضها البعض.
لغة غير لائقة
درجة إساءة المحتوى أو تهديده أو إهانته يمكن للعديد من نماذج تعلُّم الآلة تحديد المحتوى غير اللائق وقياسه وتصنيفه. تحدّد معظم هذه النماذج مستوى السمية وفقًا لمعلمات متعددة، مثل مستوى اللغة المسيئة ومستوى اللغة التي تتضمّن تهديدات.
TPU
اختصار وحدة معالجة الموتّرات.
شريحة TPU
هي أداة تسريع قابلة للبرمجة خاصة بالجبر الخطي، وتتضمّن ذاكرة عالية النطاق الترددي على الشريحة، وهي محسَّنة لتناسب مهام معالجة تعلُّم الآلة. يتم نشر شرائح TPU متعددة على جهاز TPU.
جهاز TPU
لوحة دوائر مطبوعة (PCB) تحتوي على عدة شرائح TPU، وواجهات شبكة ذات نطاق ترددي عالٍ، وأجهزة تبريد النظام
عقدة وحدة معالجة الموتّرات
مورد لوحدة معالجة الموتّرات على Google Cloud بنوع وحدة معالجة موتّرات محدّد. تتصل عقدة TPU بشبكة السحابة الإلكترونية الخاصة الافتراضية (VPC) من شبكة سحابة إلكترونية خاصة افتراضية (VPC) نظيرة. عُقد وحدات معالجة الموتّرات هي موارد محدّدة في Cloud TPU API.
حزمة TPU
إعدادات محدّدة لأجهزة TPU في أحد مراكز بيانات Google تكون جميع الأجهزة في وحدة TPU Pod متصلة ببعضها البعض عبر شبكة مخصّصة عالية السرعة. TPU Pod هي أكبر إعدادات أجهزة TPU المتاحة لإصدار معيّن من TPU.
مورد وحدة معالجة الموتّرات
كيان لوحدة معالجة الموتّرات (TPU) على Google Cloud يمكنك إنشاؤه أو إدارته أو استخدامه على سبيل المثال، عُقد TPU وأنواع TPU هي موارد TPU.
شريحة TPU
شريحة وحدة معالجة الموتّرات هي جزء كسري من أجهزة وحدة معالجة الموتّرات في حزمة TPU. يتم ربط جميع الأجهزة في شريحة وحدة معالجة الموتّرات (TPU) ببعضها البعض عبر شبكة مخصّصة عالية السرعة.
نوع وحدة معالجة الموتّرات
يشير إلى إعداد لجهاز واحد أو أكثر من أجهزة TPU مع إصدار معيّن من أجهزة TPU. يمكنك اختيار نوع وحدة معالجة الموتّرات عند إنشاء
عقدة وحدة معالجة الموتّرات على Google Cloud. على سبيل المثال، v2-8نوع وحدة معالجة الموتّرات هو جهاز TPU v2 واحد مزوّد بـ 8 نوى. يحتوي v3-2048 نوع وحدة TPU على 256 جهاز TPU v3 متصل بشبكة و2048 نواة إجمالاً. أنواع وحدات معالجة الموتّرات هي موارد
محدّدة في
Cloud TPU API.
عامل وحدة معالجة الموتّرات
هي عملية يتم تنفيذها على جهاز مضيف وتنفّذ برامج تعلُّم الآلة على أجهزة TPU.
التدريب
تشير إلى عملية تحديد المَعلمات المثالية (الأوزان والانحيازات) التي يتألف منها النموذج. أثناء التدريب، يقرأ النظام أمثلة ويعدّل المَعلمات تدريجيًا. يستخدم التدريب كل مثال من بضع مرات إلى مليارات المرات.
يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة في تعلُّم الآلة" للحصول على مزيد من المعلومات.
فقدان التدريب
مقياس يمثّل الخسارة التي يتكبّدها النموذج خلال عملية تدريب معيّنة. على سبيل المثال، لنفترض أنّ دالة الخسارة هي متوسط الخطأ التربيعي. على سبيل المثال، قد يكون الخطأ في التدريب (متوسط الخطأ التربيعي) في التكرار العاشر هو 2.2، بينما يكون الخطأ في التدريب في التكرار المئة هو 1.9.
يعرض مخطّط فقدان البيانات فقدان البيانات أثناء التدريب مقابل عدد التكرارات. تقدّم منحنى الخسارة التلميحات التالية حول التدريب:
- يشير الميل الهبوطي إلى أنّ النموذج يتحسّن.
- يشير الميل التصاعدي إلى أنّ النموذج يزداد سوءًا.
- يشير الميل المسطّح إلى أنّ النموذج قد بلغ حالة التقارب.
على سبيل المثال، يوضّح منحنى الخسارة المثالي إلى حد ما التالي ما يلي:
- ميل حادّ نحو الأسفل خلال التكرارات الأولية، ما يشير إلى تحسُّن سريع في النموذج
- ميل ينخفض تدريجيًا (ولكنه يظلّ متّجهًا للأسفل) إلى أن يقترب من نهاية التدريب، ما يشير إلى تحسّن مستمرّ في النموذج بوتيرة أبطأ بعض الشيء من الوتيرة التي كانت سائدة خلال التكرارات الأولية
- ميلان مستوٍ في نهاية التدريب، ما يشير إلى التقارب
على الرغم من أهمية فقدان التدريب، يُرجى الاطّلاع أيضًا على التعميم.
اختلاف بين بيانات التدريب وبيانات العرض
الفرق بين أداء النموذج أثناء التدريب وأداء النموذج نفسه أثناء العرض
مجموعة التدريب
مجموعة فرعية من مجموعة البيانات المستخدَمة لتدريب نموذج
عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:
- مجموعة تدريب
- مجموعة التحقّق
- مجموعة اختبار
يُفضّل أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقّق.
اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
المسار
في التعلم المعزّز، يكون التسلسل عبارة عن صفوف تمثّل تسلسل عمليات انتقال الحالة للعنصر، حيث يتوافق كل صف مع الحالة والإجراء والمكافأة والحالة التالية لعملية انتقال حالة معيّنة.
التعلّم القائم على نقل المهام
نقل المعلومات من مهمة تعلّم آلي إلى أخرى على سبيل المثال، في عملية تعلُّم المهام المتعددة، يحلّ نموذج واحد مهام متعددة، مثل نموذج التعلّم العميق الذي يتضمّن عُقد إخراج مختلفة للمهام المختلفة. قد تتضمّن عملية نقل التعلّم نقل المعرفة من حلّ مهمة أبسط إلى مهمة أكثر تعقيدًا، أو نقل المعرفة من مهمة تتوفّر فيها بيانات أكثر إلى مهمة تتوفّر فيها بيانات أقل.
تحلّ معظم أنظمة تعلُّم الآلة مهمة واحدة. التعلّم النقلي هو خطوة أولى نحو الذكاء الاصطناعي، إذ يمكن لبرنامج واحد حل مهام متعددة.
المحوّل
بنية شبكة عصبية تم تطويرها في Google وتعتمد على آليات الاهتمام الذاتي لتحويل تسلسل من عمليات التضمين المدخلة إلى تسلسل من عمليات التضمين الناتجة بدون الاعتماد على الالتفافات أو الشبكات العصبية المتكررة. يمكن اعتبار Transformer مجموعة من طبقات الانتباه الذاتي.
يمكن أن يتضمّن المحوّل أيًّا مما يلي:
- برنامج ترميز
- برنامج فك الترميز
- كل من برنامج الترميز وفك الترميز
يحوّل برنامج الترميز تسلسلاً من عمليات التضمين إلى تسلسل جديد من عمليات التضمين بالطول نفسه. يتضمّن برنامج الترميز N طبقة متطابقة، تحتوي كل منها على طبقتَين فرعيتَين. يتم تطبيق هاتين الطبقتين الفرعيتين على كل موضع من مواضع تسلسل التضمين الأول، ما يؤدي إلى تحويل كل عنصر من عناصر التسلسل إلى تضمين جديد. تجمع الطبقة الفرعية الأولى من أداة الترميز المعلومات من تسلسل الإدخال بأكمله. تحوّل الطبقة الفرعية الثانية من برنامج الترميز المعلومات المجمّعة إلى تضمين إخراج.
يحوّل برنامج الترميز تسلسلاً من عمليات التضمين المدخلة إلى تسلسل من عمليات التضمين الناتجة، وقد يكون طولها مختلفًا. يتضمّن برنامج الترميز أيضًا N طبقة متطابقة مع ثلاث طبقات فرعية، اثنتان منها تشبهان الطبقات الفرعية لبرنامج الترميز. تتلقّى الطبقة الفرعية الثالثة من أداة فك الترميز ناتج أداة الترميز وتطبّق آلية الانتباه الذاتي لجمع المعلومات منها.
تقدّم مشاركة المدونة Transformer: A Novel Neural Network Architecture for Language Understanding مقدمة جيدة عن Transformers.
يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما المقصود بالنموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلُّم الآلة" لمزيد من المعلومات.
الثبات الانتقالي
في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير موضع العناصر داخل الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على كلب، سواء كان في وسط الإطار أو في الطرف الأيسر منه.
راجِع أيضًا الثبات الحجمي والثبات الدوراني.
trigram
مخطط ثلاثي حيث N=3
الإجابة عن أسئلة المعلومات العامة
مجموعات البيانات لتقييم قدرة نموذج اللغة الكبير على الإجابة عن أسئلة المعلومات العامة تحتوي كل مجموعة بيانات على أزواج من الأسئلة والأجوبة من تأليف محبّي المسابقات الترفيهية. تستند مجموعات البيانات المختلفة إلى مصادر مختلفة، بما في ذلك:
- بحث الويب (TriviaQA)
- Wikipedia (TriviaQA_wiki)
لمزيد من المعلومات، يُرجى الاطّلاع على TriviaQA: مجموعة بيانات كبيرة الحجم للتحدي بإشراف عن بُعد حول فهم المقروء.
سالب صحيح
مثال يوضّح كيف يتنبأ النموذج بشكل صحيح بالفئة السلبية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة ليست غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية ليست غير مرغوب فيها بالفعل.
موجب صحيح
مثال يقدّم فيه النموذج توقّعًا صحيحًا للفئة الموجبة. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها، وتكون هذه الرسالة الإلكترونية في الواقع رسالة غير مرغوب فيها.
معدّل الموجب الصحيح (TPR)
مرادف لكلمة استدعاء والمقصود:
معدل الموجب الصحيح هو المحور الصادي في منحنى ROC.
TTL
اختصار مدة البقاء.
Typologically Diverse Question Answering (TyDi QA)
مجموعة بيانات كبيرة لتقييم كفاءة نموذج لغوي كبير في الإجابة عن الأسئلة تحتوي مجموعة البيانات على أزواج من الأسئلة والأجوبة بلغات عديدة.
لمزيد من التفاصيل، يُرجى الاطّلاع على TyDi QA: معيار لتقييم أداء أنظمة الإجابة عن الأسئلة المتعلقة بالبحث عن المعلومات في لغات متنوعة من الناحية الشكلية.
U
Ultra
نموذج Gemini الذي يتضمّن أكبر عدد من المَعلمات يمكنك الاطّلاع على مقالة Gemini Ultra لمعرفة التفاصيل.
يمكنك الاطّلاع أيضًا على Pro وNano.
عدم الوعي (بإحدى السمات الحسّاسة)
حالة تتوفّر فيها سمات حسّاسة، ولكنّها غير مضمّنة في بيانات التدريب. بما أنّ السمات الحساسة غالبًا ما تكون مرتبطة بسمات أخرى خاصة ببيانات المستخدم، فإنّ النموذج الذي تم تدريبه بدون معرفة سمة حساسة قد يظل له تأثير غير متناسب فيما يتعلق بهذه السمة، أو ينتهك قيود العدالة الأخرى.
فرط التعميم
إنتاج نموذج بقدرة توقّع ضعيفة لأنّ النموذج لم يستوعب بشكل كامل مدى تعقيد بيانات التدريب يمكن أن تؤدي مشاكل عديدة إلى حدوث نقص في الملاءمة، بما في ذلك:
- التدريب على مجموعة خاطئة من الميزات
- التدريب لعدد قليل جدًا من الحِقب أو بمعدّل تعلّم منخفض جدًا
- التدريب بمعدّل تسوية مرتفع جدًا
- توفير عدد قليل جدًا من الطبقات المخفية في شبكة عصبونية عميقة
يمكنك الاطّلاع على مقالة الإفراط في التخصيص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
جمع عيّنات جزئية
إزالة أمثلة من الفئة الأكثر تمثيلاً في مجموعة بيانات غير متوازنة من أجل إنشاء مجموعة تدريب أكثر توازنًا.
على سبيل المثال، لنفترض مجموعة بيانات تكون فيها نسبة الفئة الأكثر تمثيلاً إلى الفئة الأقل تمثيلاً هي 20:1. للتغلّب على عدم توازن الفئات هذا، يمكنك إنشاء مجموعة تدريبية تتألف من جميع أمثلة الفئة الأقل تمثيلاً، ولكن عُشر أمثلة الفئة الأكثر تمثيلاً فقط، ما يؤدي إلى إنشاء نسبة فئات في مجموعة التدريب تبلغ 2:1. وبفضل عملية تقليل العيّنات، قد تؤدي مجموعة التدريب الأكثر توازنًا إلى إنشاء نموذج أفضل. بدلاً من ذلك، قد تحتوي مجموعة التدريب الأكثر توازناً هذه على أمثلة غير كافية لتدريب نموذج فعّال.
يختلف ذلك عن أخذ العيّنات الزائد.
أحادي الاتجاه
نظام يقيّم النص الذي يسبق قسمًا مستهدفًا من النص. في المقابل، يقيّم النظام الثنائي الاتجاه النص الذي يسبق النص المستهدف والنص الذي يليه. لمزيد من التفاصيل، يُرجى الاطّلاع على ثنائي الاتجاه.
نموذج لغوي أحادي الاتجاه
نموذج لغوي يعتمد في حساب الاحتمالات على الرموز المميزة التي تظهر قبل الرموز المميزة المستهدَفة وليس بعدها يختلف عن نموذج اللغة الثنائي الاتجاه.
مثال غير مصنّف
مثال يتضمّن ميزات ولكن بدون تصنيف على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة غير مصنّفة من نموذج لتقييم المنازل، ويتضمّن كل مثال ثلاث سمات ولكن بدون قيمة للمنزل:
| عدد غرف النوم | عدد الحمّامات | عمر المنزل |
|---|---|---|
| 3 | 2 | 15 |
| 2 | 1 | 72 |
| 4 | 2 | 34 |
في تعلُّم الآلة الموجَّه، يتم تدريب النماذج على أمثلة مصنَّفة، ويتم إجراء توقعات على أمثلة غير مصنَّفة.
في التعلّم شبه الموجَّه وغير الموجَّه، يتم استخدام أمثلة غير مصنَّفة أثناء التدريب.
قارِن المثال غير المصنّف بالمثال المصنّف.
تعلُّم الآلة غير الموجَّه
تدريب نموذج للعثور على أنماط في مجموعة بيانات، وعادةً ما تكون مجموعة بيانات غير مصنَّفة
إنّ الاستخدام الأكثر شيوعًا للتعلّم الآلي غير الموجَّه هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن لخوارزمية تعلّم آلي غير مراقبة تجميع الأغاني استنادًا إلى خصائص مختلفة للموسيقى. ويمكن أن تصبح المجموعات الناتجة مدخلاً لخوارزميات أخرى لتعلُّم الآلة (على سبيل المثال، لخدمة اقتراحات موسيقية). يمكن أن يساعد التجميع العنقودي عندما تكون التصنيفات المفيدة نادرة أو غير متوفّرة. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن أن تساعد المجموعات البشر في فهم البيانات بشكل أفضل.
يختلف عن تعلُّم الآلة الموجَّه.
يمكنك الاطّلاع على ما هي تكنولوجيا تعلُّم الآلة؟ في دورة "مقدمة إلى تعلُّم الآلة" التدريبية للحصول على مزيد من المعلومات.
نمذجة التحسين
تقنية وضع النماذج، التي تُستخدَم عادةً في التسويق، والتي تضع نموذجًا "للتأثير السببي" (المعروف أيضًا باسم "التأثير الإضافي") "للعلاج" على "فرد". وإليك مثالان:
- قد يستخدم الأطباء نموذج التحسّن المتوقّع للتنبؤ بانخفاض معدل الوفيات (التأثير السببي) نتيجة إجراء طبي (علاج) استنادًا إلى عمر المريض وتاريخه الطبي (الفردي).
- قد تستخدم جهات التسويق نماذج زيادة الإحالات الناجحة لتوقّع الزيادة في احتمال إجراء عملية شراء (التأثير السببي) بسبب إعلان (المعالجة) على شخص (فرد).
يختلف نموذج تحسين الاستجابة عن التصنيف أو الانحدار في أنّ بعض التصنيفات (مثل نصف التصنيفات في المعالجات الثنائية) تكون دائمًا غير متوفّرة في نموذج تحسين الاستجابة. على سبيل المثال، يمكن للمريض تلقّي العلاج أو عدم تلقّيه، وبالتالي، يمكننا فقط ملاحظة ما إذا كان المريض سيشفى أو لن يشفى في إحدى هاتين الحالتين فقط (وليس كلتيهما). تتمثّل الميزة الرئيسية لنموذج التحسّن في أنّه يمكنه إنشاء توقّعات للحالة غير المرصودة (الواقع الافتراضي) واستخدامها لاحتساب التأثير السببي.
زيادة الوزن
تطبيق وزن على الفئة المخفضة يساوي العامل الذي تم تخفيضه.
مصفوفة المستخدمين
في أنظمة الاقتراحات، متّجه التضمين الذي تم إنشاؤه بواسطة تحليل المصفوفات الذي يتضمّن إشارات كامنة حول تفضيلات المستخدم. يحتوي كل صف في مصفوفة المستخدمين على معلومات حول القوة النسبية لمختلف الإشارات الكامنة لمستخدم واحد. على سبيل المثال، لنفترض أنّك تستخدم نظامًا لاقتراح الأفلام. في هذا النظام، قد تمثّل الإشارات الكامنة في مصفوفة المستخدمين اهتمام كل مستخدم بأنواع معيّنة، أو قد تكون إشارات يصعب تفسيرها وتتضمّن تفاعلات معقّدة عبر عوامل متعدّدة.
تحتوي مصفوفة المستخدمين على عمود لكل ميزة كامنة وصف لكل مستخدم. أي أنّ مصفوفة المستخدمين تتضمّن عدد الصفوف نفسه الذي تتضمّنه المصفوفة المستهدَفة التي يتم تحليلها إلى عوامل. على سبيل المثال، إذا كان لديك نظام اقتراحات للأفلام يضم 1,000,000 مستخدم، ستحتوي مصفوفة المستخدمين على 1,000,000 صف.
V
الإثبات
التقييم الأوّلي لجودة النموذج تتحقّق عملية التحقّق من صحة البيانات من جودة توقّعات النموذج من خلال مقارنتها بمجموعة التحقّق من صحة البيانات.
بما أنّ مجموعة التحقّق تختلف عن مجموعة التدريب، يساعد التحقّق في الحماية من التطابق الزائد.
يمكنك اعتبار تقييم النموذج استنادًا إلى مجموعة التحقّق بمثابة الجولة الأولى من الاختبار، وتقييم النموذج استنادًا إلى مجموعة الاختبار بمثابة الجولة الثانية من الاختبار.
فقدان التحقّق من الصحة
مقياس يمثّل الخسارة التي يتكبّدها النموذج على مجموعة التحقّق خلال تكرار معيّن من التدريب.
يمكنك الاطّلاع أيضًا على منحنى التعميم.
مجموعة التحقّق
مجموعة فرعية من مجموعة البيانات التي تجري تقييمًا أوليًا مقارنةً بنموذج تم تدريبه. عادةً، يتم تقييم النموذج المدرَّب استنادًا إلى مجموعة التحقّق عدة مرات قبل تقييم النموذج استنادًا إلى مجموعة الاختبار.
عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:
- مجموعة تدريب
- مجموعة التحقّق
- مجموعة اختبار
يُفضّل أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقّق.
اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
تقدير القيمة
عملية استبدال قيمة مفقودة بقيمة بديلة مقبولة عندما تكون إحدى القيم مفقودة، يمكنك إما تجاهل المثال بأكمله أو استخدام تقدير القيمة لإنقاذ المثال.
على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات تحتوي على ميزة temperature من المفترض أن يتم تسجيلها كل ساعة. ومع ذلك، لم تتوفّر قراءة درجة الحرارة لساعة معيّنة. في ما يلي جزء من مجموعة البيانات:
| الطابع الزمني | درجة الحرارة |
|---|---|
| 1680561000 | 10 |
| 1680564600 | 12 |
| 1680568200 | غير متاحة |
| 1680571800 | 20 |
| 1680575400 | 21 |
| 1680579000 | 21 |
يمكن للنظام إما حذف المثال المفقود أو إدخال درجة الحرارة المفقودة على أنّها 12 أو 16 أو 18 أو 20، وذلك حسب خوارزمية الإدخال.
مشكلة التدرّج المتلاشي
هي ميل تدرّجات الطبقات المخفية المبكرة في بعض الشبكات العصبية العميقة إلى أن تصبح مسطّحة (منخفضة) بشكل مفاجئ. تؤدي التدرجات المنخفضة بشكل متزايد إلى تغييرات أصغر بشكل متزايد في الأوزان على العُقد في شبكة عصبية عميقة، ما يؤدي إلى تعلّم ضئيل أو معدوم. يصعب أو يستحيل تدريب النماذج التي تعاني من مشكلة تضاؤل التدرّج. تعالج خلايا الذاكرة القصيرة الأمد الطويلة هذه المشكلة.
قارِن ذلك بمشكلة تزايد التدرّج.
أهمية المتغيرات
مجموعة من النتائج تشير إلى الأهمية النسبية لكل سمة في النموذج.
على سبيل المثال، لنفترض أنّ لديك شجرة قرارات تقدّر أسعار المنازل. لنفترض أنّ شجرة القرارات هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من أهمية المتغيرات للميزات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، فإنّ الحجم أكثر أهمية لشجرة القرار من العمر أو النمط.
تتوفّر مقاييس مختلفة لأهمية المتغيّرات، ويمكن أن تفيد خبراء تعلُّم الآلة بشأن جوانب مختلفة من النماذج.
الترميز التلقائي المتغيّر (VAE)
نوع من المشفّرات التلقائية التي تستفيد من التناقض بين المدخلات والمخرجات لإنشاء إصدارات معدّلة من المدخلات. تُعدّ برامج الترميز التلقائي المتغيرة مفيدة في الذكاء الاصطناعي التوليدي.
تستند نماذج VAE إلى الاستدلال المتغير، وهو أسلوب لتقدير مَعلمات نموذج الاحتمالية.
المتّجه
مصطلح عام جدًا يختلف معناه باختلاف المجالات الرياضية والعلمية. في إطار تعلُّم الآلة، يتضمّن المتّجه خاصيتَين:
- نوع البيانات: تحتوي المتجهات في تعلُّم الآلة عادةً على أرقام الفاصلة العائمة.
- عدد العناصر: هذا هو طول المتّجه أو بعده.
على سبيل المثال، لنفترض متجه ميزات يحتوي على ثمانية أرقام نقطة عائمة. يبلغ طول أو حجم متجه الميزات هذا ثمانية. يُرجى العِلم أنّ متّجهات تعلُّم الآلة غالبًا ما تحتوي على عدد كبير من الأبعاد.
يمكنك تمثيل العديد من أنواع المعلومات المختلفة كمتّجه. على سبيل المثال:
- يمكن تمثيل أي موضع على سطح الأرض كمتّجه ثنائي الأبعاد، حيث يمثّل أحد البُعدَين خط العرض والآخر خط الطول.
- يمكن تمثيل الأسعار الحالية لكل سهم من الأسهم الـ 500 كمتّجه ذي 500 بُعد.
- يمكن تمثيل توزيع الاحتمالات على عدد محدود من الفئات كمتّجه. على سبيل المثال، يمكن لنظام التصنيف المتعدد الفئات الذي يتوقّع أحد الألوان الثلاثة الناتجة (أحمر أو أخضر أو أصفر) أن يعرض المتّجه
(0.3, 0.2, 0.5)ليعنيP[red]=0.3, P[green]=0.2, P[yellow]=0.5.
يمكن ربط المتجهات ببعضها، وبالتالي يمكن تمثيل مجموعة متنوعة من الوسائط المختلفة كمتجه واحد. تعمل بعض النماذج مباشرةً على تسلسل العديد من عمليات التشفير الواحد الفعّال.
تم تحسين المعالِجات المتخصّصة، مثل وحدات معالجة الموتّرات، لتنفيذ عمليات رياضية على المتّجهات.
الذروة
منصة Google Cloud للذكاء الاصطناعي وتعلُّم الآلة توفّر Vertex أدوات وبنية تحتية لإنشاء تطبيقات الذكاء الاصطناعي وتفعيلها وإدارتها، بما في ذلك إمكانية الوصول إلى نماذج Gemini.البرمجة الوصفية
إصدار طلب إلى نموذج ذكاء اصطناعي توليدي لإنشاء برنامج أي أنّ الطلبات التي تقدّمها تصف الغرض من البرنامج وميزاته، ويحوّلها نموذج الذكاء الاصطناعي التوليدي إلى رمز مصدر. لا يتطابق الرمز البرمجي الذي تم إنشاؤه دائمًا مع نواياك، لذا يتطلّب الترميز المستند إلى الإحساس عادةً تكرارًا.
صاغ أندريه كارباثي مصطلح "ترميز الأجواء" في منشور X هذا. في منشور X، وصف كارباثي هذه الطريقة بأنّها "نوع جديد من الترميز... حيث تستسلم تمامًا للأجواء...". لذلك، كان المصطلح يشير في الأصل إلى نهج متساهل عن قصد في إنشاء البرامج، حيث قد لا يتم حتى فحص الرمز البرمجي الذي تم إنشاؤه. ومع ذلك، تطوّر هذا المصطلح بسرعة في العديد من الأوساط ليصبح يشير الآن إلى أي شكل من أشكال الترميز من إنشاء الذكاء الاصطناعي.
للحصول على وصف أكثر تفصيلاً حول ترميز المشاعر، يمكنك الاطّلاع على المقالة ما هي البرمجة الوصفية؟
بالإضافة إلى ذلك، قارِن بين ترميز المشاعر و:
واط
فقدان Wasserstein
إحدى دوال الخسارة الشائعة الاستخدام في شبكات الخصومة التوليدية، استنادًا إلى مسافة نقل التربة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.
الوزن
قيمة يضربها النموذج في قيمة أخرى. التدريب هو عملية تحديد الأوزان المثالية للنموذج، بينما الاستنتاج هو عملية استخدام تلك الأوزان التي تم تعلّمها لإجراء التوقعات.
يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.
طريقة المربّعات الصغرى المتناوبة المرجّحة (WALS)
خوارزمية لتقليل دالة الهدف أثناء تحليل المصفوفات في أنظمة الاقتراحات، ما يتيح تخفيض وزن الأمثلة الناقصة. تخفّض طريقة المربّعات الصغرى المرجّحة الخطأ التربيعي المرجّح بين المصفوفة الأصلية وإعادة الإنشاء من خلال التبديل بين تثبيت تحليل الصفوف وتحليل الأعمدة. يمكن حلّ كلّ من عمليات التحسين هذه باستخدام التحسين المحدّب بطريقة المربّعات الصغرى. لمزيد من التفاصيل، يُرجى الاطّلاع على دورة أنظمة الاقتراحات التدريبية.
المجموع الموزون
مجموع كل قيم الإدخال ذات الصلة مضروبًا في الأوزان المقابلة لها على سبيل المثال، لنفترض أنّ المدخلات ذات الصلة تتألف مما يلي:
| قيمة الإدخال | وزن الإدخال |
| 2 | -1.3 |
| -1 | 0.6 |
| 3 | 0.4 |
وبالتالي، يكون المجموع المرجّح كما يلي:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
المجموع المرجّح هو وسيطة الإدخال إلى دالة التنشيط.
WiC
اختصار الكلمات في السياق
نموذج واسع
نموذج خطي يتضمّن عادةً العديد من سمات الإدخال المتفرقة. نطلق على هذا النوع من النماذج اسم "واسع" لأنّه نوع خاص من الشبكات العصبية يتضمّن عددًا كبيرًا من المدخلات التي تتصل مباشرةً بعقدة الإخراج. غالبًا ما يكون من الأسهل تصحيح أخطاء النماذج العميقة وفحصها مقارنةً بالنماذج الواسعة. على الرغم من أنّ النماذج الواسعة لا يمكنها التعبير عن اللاخطية من خلال الطبقات المخفية، يمكنها استخدام عمليات تحويل مثل تداخل الميزات والتجميع في فئات لنمذجة اللاخطية بطرق مختلفة.
يختلف عن النموذج العميق.
العرض
عدد الخلايا العصبية في طبقة معيّنة من شبكة عصبية
WikiLingua (wiki_lingua)
مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تلخيص المقالات القصيرة WikiHow هي موسوعة تضم مقالات تشرح كيفية تنفيذ مهام مختلفة، وهي مصدر المحتوى الذي كتبه الإنسان لكل من المقالات والملخّصات. يتألف كل إدخال في مجموعة البيانات مما يلي:
- مقال، يتم إنشاؤه من خلال إضافة كل خطوة من النسخة النثرية (فقرة) من القائمة المرقمة، باستثناء الجملة الافتتاحية لكل خطوة.
- ملخّص لتلك المقالة يتألف من الجملة الافتتاحية لكل خطوة في القائمة المرقمة
لمزيد من التفاصيل، يُرجى الاطّلاع على WikiLingua: مجموعة بيانات جديدة لقياس أداء التلخيص الاستخلاصي المتعدد اللغات.
تحدي مخطط وينوغراد (WSC)
تنسيق (أو مجموعة بيانات متوافقة مع هذا التنسيق) لتقييم قدرة نموذج لغوي كبير على تحديد العبارة الاسمية التي يشير إليها الضمير.
يتضمّن كل إدخال في تحدّي Winograd Schema ما يلي:
- مقطع قصير يحتوي على ضمير مستهدف
- ضمير مستهدَف
- عبارات اسمية مرشّحة، متبوعة بالإجابة الصحيحة (قيمة منطقية). إذا كان الضمير المستهدَف يشير إلى هذا المرشّح، تكون الإجابة "صحيح". إذا لم يشِر الضمير المستهدَف إلى هذا المرشّح، تكون الإجابة False.
على سبيل المثال:
- مقتطف: أخبر "مارك" "بيت" بالكثير من الأكاذيب عن نفسه، وقد أدرجها "بيت" في كتابه. كان عليه أن يكون أكثر صدقًا.
- الضمير المستهدَف: هو
- عبارات اسمية مرشّحة:
- الإجابة: صحيحة، لأنّ الضمير المستهدَف يشير إلى "مارك"
- بيتر: خطأ، لأنّ الضمير المستهدف لا يشير إلى بيتر
يشكّل تحدّي Winograd Schema جزءًا من مجموعة SuperGLUE.
حكمة الجموع
تشير إلى فكرة أنّ احتساب متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص (أي "الجمهور") غالبًا ما يؤدي إلى نتائج جيدة بشكل مدهش. على سبيل المثال، لنفترض لعبة يخمّن فيها المشاركون عدد حبّات الحلوى الهلامية المعبّأة في مرطبان كبير. مع أنّ معظم التخمينات الفردية ستكون غير دقيقة، تبيّن تجريبيًا أنّ متوسط جميع التخمينات يكون قريبًا بشكل مدهش من العدد الفعلي لحبات الحلوى في المرطبان.
المجموعات هي نظير برمجي لـ "حكمة الجمهور". حتى إذا كانت النماذج الفردية تقدّم توقّعات غير دقيقة بشكل كبير، فإنّ حساب متوسط التوقّعات الناتجة عن العديد من النماذج يؤدي غالبًا إلى توقّعات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة القرار الفردية قد تقدّم تنبؤات غير دقيقة، إلا أنّ غابة القرار غالبًا ما تقدّم تنبؤات دقيقة جدًا.
WMT
وهي اختصار لـ مؤتمر حول الترجمة الآلية. (الاختصار هو WMT لأنّ الاسم الأصلي كان Workshop on Machine Translation). يركّز المؤتمر على التطورات في أنظمة الترجمة الآلية.
تضمين الكلمات
تمثيل كل كلمة في مجموعة كلمات ضمن متّجه تضمين، أي تمثيل كل كلمة كمتّجه من قيم النقطة العائمة بين 0.0 و1.0 تمثّل الكلمات التي لها معانٍ متشابهة بشكل أكثر تشابهًا من الكلمات التي لها معانٍ مختلفة. على سبيل المثال، سيكون لكل من الجزر والكرفس والخيار تمثيلات متشابهة نسبيًا، وستكون مختلفة تمامًا عن تمثيلات الطائرة والنظارات الشمسية ومعجون الأسنان.
الكلمات في السياق (WiC)
مجموعة بيانات لتقييم مدى جودة استخدام نموذج لغوي كبير للسياق من أجل فهم الكلمات التي لها معانٍ متعددة. يحتوي كل إدخال في مجموعة البيانات على ما يلي:
- جملتان تحتوي كل منهما على الكلمة المستهدَفة
- الكلمة المستهدَفة
- الإجابة الصحيحة (قيمة منطقية)، حيث:
- تعني القيمة "صحيح" أنّ الكلمة المستهدَفة تحمل المعنى نفسه في الجملتَين
- تعني القيمة False أنّ الكلمة المستهدَفة لها معنى مختلف في الجملتين
على سبيل المثال:
- جملتان:
- هناك الكثير من القمامة في قاع النهر.
- أضع كوبًا من الماء بجانب سريري عندما أنام.
- الكلمة المستهدَفة: سرير
- الإجابة الصحيحة: خطأ، لأنّ الكلمة المستهدَفة لها معنى مختلف في الجملتين.
لمزيد من التفاصيل، يُرجى الاطّلاع على WiC: مجموعة بيانات Word-in-Context لتقييم تمثيلات المعنى الحساسة للسياق.
Words in Context هي أحد مكوّنات مجموعة SuperGLUE.
WSC
اختصار تحدّي مخطط وينوغراد
X
XLA (الجبر الخطي السريع)
برنامج تجميع مفتوح المصدر لتعلُّم الآلة مخصّص لوحدات معالجة الرسومات ووحدات المعالجة المركزية ومسرّعات تعلُّم الآلة
تأخذ أداة تجميع XLA النماذج من أُطر تعلُّم الآلة الشائعة، مثل PyTorch وTensorFlow وJAX، وتعمل على تحسينها لتحقيق أداء عالٍ على مختلف منصات الأجهزة، بما في ذلك وحدات معالجة الرسومات ووحدات المعالجة المركزية ومسرّعات تعلُّم الآلة.
XL-Sum (xlsum)
مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في تلخيص النصوص تقدّم XL-Sum إدخالات بلغات عديدة. يحتوي كل إدخال في مجموعة البيانات على ما يلي:
- مقالة مأخوذة من هيئة الإذاعة البريطانية (BBC)
- تمثّل هذه السمة ملخّصًا للمقالة من تأليف مؤلفها. يُرجى العِلم أنّ هذا الملخّص قد يحتوي على كلمات أو عبارات غير متوفّرة في المقالة.
لمزيد من التفاصيل، يُرجى الاطّلاع على XL-Sum: تلخيص تجريدي متعدد اللغات على نطاق واسع بـ 44 لغة.
xsum
اختصار Extreme Summarization
Z
التعلّم بلا أمثلة
نوع من تدريب تعلُّم الآلة، حيث يستنتج النموذج توقّعًا لمهمة لم يتم تدريبه عليها بشكل محدّد. بعبارة أخرى، لا يتلقّى النموذج أي أمثلة تدريبية خاصة بالمهمة، ولكن يُطلب منه إجراء استنتاج لتلك المهمة.
التلقين بلا أمثلة
طلب لا يقدّم مثالاً على الطريقة التي تريد أن يردّ بها النموذج اللغوي الكبير. على سبيل المثال:
| أجزاء من طلب واحد | ملاحظات |
|---|---|
| ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة. |
| الهند: | طلب البحث الفعلي |
قد يردّ النموذج اللغوي الكبير بأي مما يلي:
- روبية
- INR
- ر.ه.
- الروبية الهندية
- الروبية
- الروبية الهندية
جميع الإجابات صحيحة، ولكن قد تفضّل تنسيقًا معيّنًا.
قارِن بين التحفيز بدون أمثلة والمصطلحات التالية:
تسوية درجة Z
التحجيم هو أسلوب يستبدل قيمة سمة أولية بقيمة نقطة عائمة تمثّل عدد الانحرافات المعيارية عن متوسط تلك السمة. على سبيل المثال، لنفترض أنّ هناك ميزة متوسطها 800 وانحرافها المعياري 100. يوضّح الجدول التالي كيف يمكن أن يؤدي التوحيد القياسي لنتيجة Z إلى ربط القيمة الأولية بنتيجة Z:
| قيمة أساسية | الدرجة المعيارية |
|---|---|
| 800 | 0 |
| 950 | +1.5 |
| 575 | -2.25 |
بعد ذلك، يتم تدريب نموذج تعلُّم الآلة على قيم Z الخاصة بهذه الميزة بدلاً من القيم الأولية.
لمزيد من المعلومات، راجِع البيانات الرقمية: التسوية في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".