مسرد مصطلحات تعلُم الآلة

يحدّد هذا المسرد مصطلحات الذكاء الاصطناعي.

A

الاستئصال

تقنية لتقييم أهمية ميزة أو مكوّن من خلال إزالته مؤقتًا من نموذج بعد ذلك، يمكنك إعادة تدريب النموذج بدون تلك الميزة أو المكوّن، وإذا كان أداء النموذج الذي تمت إعادة تدريبه أسوأ بكثير، فمن المحتمل أنّ الميزة أو المكوّن الذي تمت إزالته كان مهمًا.

على سبيل المثال، لنفترض أنّك درّبت نموذج تصنيف على 10 ميزات وحقّقت مقياس صحة النموذج بنسبة% 88 على مجموعة الاختبار. للتحقّق من أهمية الميزة الأولى، يمكنك إعادة تدريب النموذج باستخدام الميزات التسع الأخرى فقط. إذا كان أداء النموذج الذي تمّت إعادة تدريبه أسوأ بكثير (على سبيل المثال، دقة 55%)، من المحتمل أنّ الميزة التي تمت إزالتها كانت مهمة. في المقابل، إذا كان النموذج الذي تمّت إعادة تدريبه يؤدي بشكل جيد بنفس القدر، فمن المحتمل أنّ هذه الميزة لم تكن مهمة.

يمكن أن تساعد عملية الاستئصال أيضًا في تحديد أهمية ما يلي:

المكوّنات الأكبر، مثل نظام فرعي كامل من نظام تعلُّم آلي أكبر
العمليات أو الأساليب، مثل خطوة المعالجة المسبقة للبيانات

في كلتا الحالتين، ستلاحظ كيف يتغيّر أداء النظام (أو لا يتغيّر) بعد إزالة المكوّن.

اختبار A/B

طريقة إحصائية لمقارنة أسلوبَين (أو أكثر)، وهما أ وب. عادةً، تكون أ تقنية حالية، وب تقنية جديدة. لا يحدّد اختبار A/B الأسلوب الأفضل أداءً فحسب، بل يحدّد أيضًا ما إذا كان الفرق ذا دلالة إحصائية.

عادةً ما تقارن اختبارات A/B مقياسًا واحدًا بين أسلوبَين، مثل مقارنة دقة النموذج بين أسلوبَين. ومع ذلك، يمكن أن تقارن اختبارات A/B أيضًا أي عدد محدود من المقاييس.

شريحة تسريع

#GoogleCloud

فئة من مكوّنات الأجهزة المتخصّصة المصمَّمة لإجراء العمليات الحسابية الأساسية اللازمة لخوارزميات التعلّم الآلي العميق

يمكن أن تؤدي شرائح المعالجة السريعة (أو المعالجات السريعة باختصار) إلى زيادة سرعة وكفاءة مهام التدريب والاستدلال بشكل كبير مقارنةً بوحدة المعالجة المركزية للأغراض العامة. وهي مثالية لتدريب الشبكات العصبية والمهام المشابهة التي تتطلّب قدرة حاسوبية عالية.

تشمل أمثلة شرائح المعالجة السريعة ما يلي:

وحدات معالجة الموتّرات (TPU) من Google مع أجهزة مخصّصة للتعليم المعمّق
تم تصميم وحدات معالجة الرسومات من NVIDIA، التي كانت مصمّمة في البداية لمعالجة الرسومات، بهدف إتاحة المعالجة المتوازية، ما يمكن أن يزيد سرعة المعالجة بشكل كبير.

الدقة

#fundamentals

#Metric

عدد التوقّعات الصحيحة للتصنيف مقسومًا على إجمالي عدد التوقّعات والمقصود:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

على سبيل المثال، إذا قدّم نموذج 40 توقّعًا صحيحًا و10 توقّعات غير صحيحة، ستكون دقة النموذج كما يلي:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

يقدّم التصنيف الثنائي أسماء محدّدة لمختلف فئات التوقعات الصحيحة والتوقعات غير الصحيحة. لذا، تكون صيغة الدقة للتصنيف الثنائي كما يلي:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:

TP هو عدد الحالات الموجبة الصحيحة (التوقّعات الصحيحة).
TN هو عدد الحالات السالبة الصحيحة (التوقعات الصحيحة).
FP هو عدد الحالات الموجبة الخاطئة (التوقعات غير الصحيحة).
FN هو عدد الحالات السالبة الخاطئة (التوقعات غير الصحيحة).

مقارنة الدقة بـ مقياس صحة النموذج ومقياس المراجعة.

انقر على الرمز للحصول على تفاصيل حول الدقة ومجموعات البيانات غير المتوازنة بين الفئات.

على الرغم من أنّ الدقة مقياس قيّم في بعض الحالات، إلا أنّها قد تكون مضلّلة للغاية في حالات أخرى. يُذكر أنّ الدقة عادةً ما تكون مقياسًا غير مناسب لتقييم نماذج التصنيف التي تعالج مجموعات بيانات غير متوازنة الفئات.

على سبيل المثال، لنفترض أنّ الثلوج تتساقط في مدينة شبه استوائية معيّنة لمدة 25 يومًا فقط في القرن. بما أنّ عدد الأيام التي لم تتساقط فيها الثلوج (الفئة السلبية) يفوق بكثير عدد الأيام التي تساقطت فيها الثلوج (الفئة الإيجابية)، فإنّ مجموعة بيانات الثلوج الخاصة بهذه المدينة غير متوازنة الفئات. لنفترض أنّ لديك نموذج تصنيف ثنائي من المفترض أن يتنبأ بما إذا كان سيتساقط الثلج أم لا كل يوم، ولكنّه يتنبأ ببساطة بأنّه "لن يتساقط الثلج" كل يوم. هذا النموذج دقيق للغاية ولكنّه لا يملك القدرة على التوقّع. يلخّص الجدول التالي النتائج لقرن من التوقعات:

الفئة	العدد
TP	0
تونس	36499
FP	0
FN	25

وبالتالي، تكون دقة هذا النموذج كما يلي:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

على الرغم من أنّ نسبة الدقة البالغة 99.93% تبدو نسبة مذهلة، إلا أنّ النموذج لا يتمتع بأي قدرة على التنبؤ.

عادةً ما يكون مقياس صحة النموذج ومقياس المراجعة مقياسَين أكثر فائدة من الدقة لتقييم النماذج المدرَّبة على مجموعات بيانات غير متوازنة الفئات.

يمكنك الاطّلاع على التصنيف: الدقة ومقياس المراجعة ومقياس صحة النموذج والمقاييس ذات الصلة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

التصرف

#agent

مرحلة في الحلقة التفاعلية ينفّذ فيها الوكيل الإجراء الذي تم اختياره خلال مرحلة السبب. على سبيل المثال، يمكن لمرحلة الإجراء إرسال طلب بيانات من واجهة برمجة التطبيقات.

إجراء

#agent

في التعلّم التعزيزي، تُعدّ السياسة الآلية التي ينتقل من خلالها الوكيل بين الحالات الخاصة بالبيئة. يختار الوكيل الإجراء باستخدام سياسة.

مساحة الإجراء

#agent

مجموعة الموارد التي يمكن للوكيل استخدامها لتنفيذ مهمة. قد تتضمّن مساحة الإجراءات الأدوات وواجهات برمجة التطبيقات التي يمكن للوكيل استدعاؤها والأذونات التي يملكها. بشكل عام، يجب أن تكون مساحة الإجراء كبيرة بما يكفي ليتمكّن الوكيل من تنفيذ المهمة. إذا كانت مساحة الإجراءات صغيرة جدًا، قد لا يتوفّر لدى الوكيل موارد كافية لتنفيذ المهمة. إذا كانت مساحة الإجراءات كبيرة جدًا، يصبح العامل أكثر عرضة للخطأ.

دالّة التفعيل

#fundamentals

هي دالة تتيح للشبكات العصبونية التعرّف على العلاقات غير الخطية (المعقّدة) بين الميزات والتصنيف.

تشمل دوال التنشيط الشائعة ما يلي:

ReLU
الدالة السينية

لا تكون رسومات دوال التنشيط البيانية أبدًا خطوطًا مستقيمة مفردة. على سبيل المثال، يتألف الرسم البياني لدالة التنشيط ReLU من خطين مستقيمين:

مخطط ديكارتي لخطين يحتوي السطر الأول على قيمة y ثابتة تساوي 0، ويمتد على طول المحور x من -infinity,0 إلى 0,-0.
يبدأ السطر الثاني عند النقطة 0,0. ميل هذا الخط هو 1+، لذا يمتد من 0,0 إلى +infinity,+infinity.

يبدو الرسم البياني لدالة التنشيط السينية على النحو التالي:

رسم بياني منحني ثنائي الأبعاد تتراوح فيه قيم x بين سالب ما لا نهاية وموجب ما لا نهاية، بينما تتراوح قيم y بين 0 تقريبًا و1 تقريبًا. عندما تكون قيمة x هي 0، تكون قيمة y هي 0.5. يكون ميل المنحنى موجبًا دائمًا، ويكون الميل الأعلى عند النقطة 0 و0.5، ثم ينخفض تدريجيًا مع زيادة القيمة المطلقة لـ x.

انقر على الرمز للاطّلاع على مثال.

في الشبكة العصبية، تعالج دوال التنشيط المجموع المرجّح لجميع المدخلات إلى عصبون. لحساب مجموع مرجّح، يجمع العصبون نواتج القيم والأوزان ذات الصلة. على سبيل المثال، لنفترض أنّ المدخلات ذات الصلة إلى خلية عصبية تتألف مما يلي:

قيمة الإدخال	وزن الإدخال
2	‎-1.3
-1	0.6
3	0.4

وبالتالي، يكون المجموع المرجّح كما يلي:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

لنفترض أنّ مصمّم هذه الشبكة العصبية اختار دالة سيغمويد لتكون دالة التنشيط. في هذه الحالة، تحسب الخلية العصبية دالة سيغمويد للقيمة -2.0، أي 0.12 تقريبًا. لذلك، تنقل الخلية العصبية القيمة 0.12 (بدلاً من -2.0) إلى الطبقة التالية في الشبكة العصبية. يوضّح الشكل التالي الجزء ذي الصلة من العملية:

لمزيد من المعلومات، يُرجى الاطّلاع على الشبكات العصبية: دوال التنشيط في "الدورة التدريبية المكثّفة حول تعلُّم الآلة".

التعلّم النشط

التدريب هو أسلوب يتيح للخوارزمية اختيار بعض البيانات التي تتعلّم منها. تكون ميزة "التعلّم النشط" مفيدة بشكل خاص عندما تكون الأمثلة المصنّفة نادرة أو مكلفة. بدلاً من البحث بشكل عشوائي عن مجموعة متنوعة من الأمثلة المصنّفة، تبحث خوارزمية التعلّم النشط بشكل انتقائي عن مجموعة الأمثلة المحدّدة التي تحتاجها للتعلّم.

AdaGrad

خوارزمية متطورة لنزول التدرّج تعيد قياس تدرّجات كل معلَمة، ما يمنح كل معلَمة معدّل التعلّم مستقلاً. للحصول على شرح كامل، يُرجى الاطّلاع على Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

التكيّف

#generativeAI

مرادف لعملية الضبط أو الضبط الدقيق

وكيل

#generativeAI

#agent

برنامج يمكنه التفكير في مدخلات المستخدم من أجل التخطيط للإجراءات وتنفيذها نيابةً عنه.

في التعلّم التعزيزي، الوكيل هو الكيان الذي يستخدم سياسة لتحقيق الحد الأقصى من العائد المتوقّع من الانتقال بين الحالات الخاصة بالبيئة.

يستند إلى الذكاء الاصطناعي الوكيل

#generativeAI

#agent

تمثّل هذه السمة صيغة الصفة من وكيل. تشير كلمة "وكيل" إلى الصفات التي يتمتّع بها الوكلاء (مثل الاستقلالية).

حلقة الذكاء الاصطناعي الوكيل

#agent

دورة يكرّرها الوكيل إلى أن يتم استيفاء شرط الإنهاء. تتألف الدورة عادةً من المراحل الأربع التالية:

المراقبة
السبب
اتّخاذ إجراء
الملاحظات

سير العمل القائم على وكلاء الذكاء الاصطناعي

#generativeAI

#agent

هي عملية ديناميكية يخطّط فيها الوكيل وينفّذ الإجراءات بشكل مستقل لتحقيق هدف. قد تتضمّن العملية الاستدلال، واستخدام أدوات خارجية، وتصحيح الخطة ذاتيًا.

تنظيم الوكلاء

#agent

الإدارة المركزية وتوجيه المهام إلى العديد من الوكلاء الفرعيين أو طلبات النماذج اللغوية الكبيرة تعمل ميزة "تنسيق الوكلاء" على تقسيم المهام المعقّدة إلى مهام فرعية أصغر وتعيينها إلى الوكلاء الفرعيين الأكثر كفاءة.

التجميع من الأسفل إلى الأعلى

#clustering

اطّلِع على التجميع الهرمي.

محتوى ذكاء اصطناعي منخفض الجودة

#generativeAI

ناتج من نظام ذكاء اصطناعي توليدي يفضّل الكمية على الجودة. على سبيل المثال، تكون صفحة الويب التي تتضمّن محتوى ذكاء اصطناعي منخفض الجودة مليئة بمحتوى منخفض الجودة من إنشاء الذكاء الاصطناعي تم إنتاجه بتكلفة منخفضة.

رصد القيم الشاذة

عملية تحديد القيم الشاذة على سبيل المثال، إذا كان المتوسط لـ ميزة معيّنة هو 100 مع انحراف معياري يبلغ 10، يجب أن ترصد ميزة "رصد القيم الشاذة" القيمة 200 كقيمة مشبوهة.

الواقع المعزّز

اختصار الواقع المعزّز

المساحة تحت منحنى الدقة والاستدعاء

#Metric

اطّلِع على المساحة تحت منحنى الدقة والاستدعاء (PR AUC).

المساحة تحت منحنى ROC

#Metric

اطّلِع على المساحة تحت منحنى ROC.

الذكاء الاصطناعي العام

آلية غير بشرية تعرض مجموعة واسعة من القدرات على حل المشاكل والإبداع والتكيّف. على سبيل المثال، يمكن لبرنامج يوضّح الذكاء الاصطناعي العام ترجمة النصوص وتأليف السيمفونيات والتفوق في الألعاب التي لم يتم اختراعها بعد.

الذكاء الاصطناعي

#fundamentals

برنامج أو نموذج غير بشري يمكنه حلّ المهام المعقّدة على سبيل المثال، يندرج ضمن الذكاء الاصطناعي برنامج أو نموذج يترجم النصوص، أو برنامج أو نموذج يحدّد الأمراض من صور الأشعة.

تعلُّم الآلة هو حقل فرعي من الذكاء الاصطناعي. مع ذلك، بدأت بعض المؤسسات في السنوات الأخيرة تستخدم مصطلحَي الذكاء الاصطناعي وتعلُّم الآلة بالتبادل.

تنبيه

آلية مستخدَمة في شبكة عصبية تشير إلى أهمية كلمة معيّنة أو جزء من كلمة. تؤدي آلية الانتباه إلى تقليل كمية المعلومات التي يحتاج إليها النموذج لتوقّع الرمز المميز/الكلمة التالية. قد تتألف آلية الانتباه النموذجية من مجموع مرجّح على مجموعة من المدخلات، حيث يتم حساب الوزن لكل مدخل من خلال جزء آخر من الشبكة العصبية.

يُرجى الرجوع أيضًا إلى الانتباه الذاتي والانتباه الذاتي المتعدد الرؤوس، وهما اللبنات الأساسية في المحوّلات.

يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات حول الانتباه الذاتي.

السمة

#responsible

مرادف ميزة

في سياق عدالة تعلُّم الآلة، تشير السمات غالبًا إلى الخصائص المتعلقة بالأفراد.

أخذ عيّنات من السمات

#df

أسلوب لتدريب غابة القرارات، حيث لا تأخذ كل شجرة قرارات في الاعتبار سوى مجموعة فرعية عشوائية من الميزات المحتملة عند تعلُّم الشرط. بشكل عام، يتم أخذ عيّنة من مجموعة فرعية مختلفة من الميزات لكل عقدة. في المقابل، عند تدريب شجرة قرارات بدون أخذ عيّنات من السمات، يتم أخذ جميع الميزات المحتملة في الاعتبار لكل عقدة.

المساحة تحت منحنى ROC

#fundamentals

#Metric

رقم يتراوح بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. كلما اقتربت قيمة AUC من 1.0، تحسّنت قدرة النموذج على فصل الفئات عن بعضها.

على سبيل المثال، توضّح الصورة التالية نموذج تصنيف يفصل تمامًا بين الفئات الإيجابية (الدوائر الخضراء) والفئات السلبية (المستطيلات الأرجوانية). يحقّق هذا النموذج المثالي غير الواقعي قيمة AUC تبلغ 1.0:

خط أعداد يتضمّن 8 أمثلة موجبة على أحد الجانبين و9 أمثلة سالبة على الجانب الآخر

في المقابل، يوضّح الرسم التوضيحي التالي نتائج نموذج تصنيف أنشأ نتائج عشوائية. يحتوي هذا النموذج على قيمة AUC تبلغ 0.5:

خط أعداد يتضمّن 6 أمثلة موجبة و6 أمثلة سالبة
تسلسل الأمثلة هو إيجابي، سلبي، إيجابي، سلبي، إيجابي، سلبي، إيجابي، سلبي، إيجابي، سلبي، إيجابي، سلبي.

نعم، النموذج السابق لديه قيمة AUC تبلغ 0.5، وليس 0.0.

وتقع معظم النماذج في مكان ما بين هذين الحدّين الأقصيين. على سبيل المثال، يفصل النموذج التالي بين القيم الموجبة والسالبة إلى حد ما، وبالتالي يكون لديه قيمة AUC تتراوح بين 0.5 و1.0:

خط أعداد يتضمّن 6 أمثلة موجبة و6 أمثلة سالبة
تسلسل الأمثلة هو سلبي، سلبي، سلبي، سلبي، إيجابي، سلبي، إيجابي، إيجابي، سلبي، إيجابي، إيجابي، إيجابي.

تتجاهل مقياس AUC أي قيمة تحدّدها لحدّ التصنيف. بدلاً من ذلك، تأخذ المساحة تحت منحنى ROC في الاعتبار جميع عتبات التصنيف الممكنة.

انقر على الرمز للتعرّف على العلاقة بين منحنيَي AUC وROC.

تمثّل المساحة تحت منحنى ROC المساحة تحت منحنى ROC. على سبيل المثال، يبدو منحنى ROC لنموذج يفصل الإيجابيات عن السلبيات بشكل مثالي كما يلي:

مساحة AUC هي مساحة المنطقة الرمادية في الرسم التوضيحي السابق. في هذه الحالة غير العادية، تكون المساحة ببساطة هي طول المنطقة الرمادية (1.0) مضروبًا في عرض المنطقة الرمادية (1.0). وبالتالي، فإنّ ناتج ضرب 1.0 في 1.0 يعطي قيمة AUC تساوي 1.0 بالضبط، وهي أعلى قيمة ممكنة لنتيجة AUC.

في المقابل، يكون منحنى ROC الخاص بنموذج التصنيف الذي لا يمكنه فصل الفئات على الإطلاق كما يلي. مساحة هذه المنطقة الرمادية هي 0.5.

يبدو منحنى ROC الأكثر شيوعًا على النحو التالي تقريبًا:

سيكون من الصعب احتساب المساحة تحت هذا المنحنى يدويًا، ولهذا السبب يتم عادةً احتساب معظم قيم AUC باستخدام برنامج.

انقر على الرمز للحصول على تعريف أكثر رسمية لمقياس "المساحة تحت المنحنى".

مساحة تحت المنحنى (AUC) هي احتمال أن يكون نموذج التصنيف أكثر ثقة في أنّ مثالاً إيجابيًا تم اختياره عشوائيًا هو إيجابي بالفعل من أن يكون مثالاً سلبيًا تم اختياره عشوائيًا هو إيجابي.

يمكنك الاطّلاع على التصنيف: منحنى ROC ومقياس AUC في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

الواقع المعزّز

هي تكنولوجيا تفرض صورة من إنشاء الكمبيوتر على رؤية المستخدم للعالم الحقيقي، ما يوفّر بالتالي عرضًا مركّبًا.

autoencoder

نظام يتعلّم استخراج المعلومات الأكثر أهمية من البيانات المُدخلة. تتألف برامج الترميز التلقائي من برنامج ترميز وبرنامج فك ترميز. تعتمد برامج الترميز التلقائي على العملية التالية المكوّنة من خطوتَين:

يحوّل برنامج الترميز الإدخال إلى تنسيق (وسيط) مضغوط (عادةً) ذي أبعاد أقل.
ينشئ برنامج فك الترميز نسخة مع معلومات مفقودة من الإدخال الأصلي من خلال ربط التنسيق المنخفض الأبعاد بتنسيق الإدخال الأصلي العالي الأبعاد.

يتم تدريب برامج الترميز التلقائي بشكل شامل من خلال جعل برنامج فك الترميز يحاول إعادة إنشاء الإدخال الأصلي من التنسيق الوسيط لبرنامج الترميز بأقرب شكل ممكن. بما أنّ التنسيق الوسيط أصغر (أقل أبعادًا) من التنسيق الأصلي، يتم إجبار الترميز التلقائي على التعرّف على المعلومات الأساسية في الإدخال، ولن يكون الإخراج مطابقًا تمامًا للإدخال.

على سبيل المثال:

إذا كانت بيانات الإدخال عبارة عن رسم، سيكون النسخ غير المطابق مشابهاً للرسم الأصلي، ولكن مع بعض التعديلات. ربما تزيل النسخة غير المطابقة التشويش من الرسم الأصلي أو تملأ بعض وحدات البكسل الناقصة.
إذا كانت بيانات الإدخال نصية، سينشئ الترميز التلقائي نصًا جديدًا يحاكي النص الأصلي (ولكنه ليس مطابقًا له).

يمكنك الاطّلاع أيضًا على المشفّرات التلقائية المتغيرة.

التقييم التلقائي

#generativeAI

استخدام برامج للحكم على جودة نتائج النموذج

عندما تكون مخرجات النموذج بسيطة نسبيًا، يمكن لنص برمجي أو برنامج مقارنة مخرجات النموذج بالردّ المثالي. يُطلق على هذا النوع من التقييم التلقائي أحيانًا اسم التقييم الآلي. غالبًا ما تكون مقاييس مثل ROUGE أو BLEU مفيدة للتقييم الآلي.

عندما تكون مخرجات النموذج معقّدة أو لا تتضمّن إجابة صحيحة واحدة، يتم أحيانًا إجراء التقييم التلقائي من خلال برنامج منفصل لتعلُّم الآلة يُعرف باسم المقيّم التلقائي.

يختلف ذلك عن التقييم البشري.

الانحياز للاقتراحات الآلية

#responsible

عندما يفضّل صانع القرار البشري الاقتراحات التي يقدّمها نظام آلي لاتخاذ القرارات على المعلومات التي يتم الحصول عليها بدون أتمتة، حتى عندما يرتكب نظام اتخاذ القرارات الآلي أخطاءً

لمزيد من المعلومات، يُرجى الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة".

AutoML

أي عملية مبرمَجة لإنشاء نماذج تعلُّم الآلة يمكن لـ AutoML تنفيذ مهام مثل ما يلي تلقائيًا:

ابحث عن النموذج الأنسب.
اضبط المعلَمات الفائقة.
إعداد البيانات (بما في ذلك إجراء هندسة الخصائص)
فعِّل النموذج الناتج.

تُعدّ AutoML مفيدة لعلماء البيانات لأنّها يمكن أن توفّر لهم الوقت والجهد في تطوير مسارات تعلُّم الآلة وتحسين دقة التوقّعات. وهي مفيدة أيضًا لغير الخبراء، إذ تتيح لهم تنفيذ مهام معقّدة في مجال تعلُّم الآلة.

لمزيد من المعلومات، يمكنك الاطّلاع على تعلُّم الآلة المبرمَج (AutoML) في "دورة مكثّفة عن تعلُّم الآلة".

وكيل مستقل

#agent

هو وكيل يعمل على تحقيق هدف معقّد من خلال التخطيط والتنفيذ والتكيّف بدون تدخّل بشري مستمر.

تقييم أداة التقييم التلقائي

#generativeAI

آلية مختلطة لتقييم جودة نتائج نموذج الذكاء الاصطناعي التوليدي تجمع بين التقييم البشري والتقييم الآلي أداة التقييم التلقائي هي نموذج تعلُّم آلة تم تدريبه على بيانات تم إنشاؤها من خلال التقييم البشري. من الناحية المثالية، يتعلّم نظام التقييم الآلي محاكاة المقيّم البشري.

تتوفّر أدوات تقييم تلقائي جاهزة، ولكن أفضلها هي تلك التي تم تحسينها وتخصيصها للمهمة التي تريد تقييمها.

نموذج الانحدار التلقائي

#generativeAI

نموذج يستنتج توقّعًا استنادًا إلى توقّعاته السابقة. على سبيل المثال، تتوقّع نماذج اللغة ذات الانحدار الذاتي الرمز المميز التالي استنادًا إلى الرموز المميزة التي تم توقّعها سابقًا. جميع النماذج اللغوية الكبيرة المستندة إلى بنية Transformer هي نماذج ذات انحدار تلقائي.

في المقابل، لا تكون نماذج الصور المستندة إلى الشبكات العدائية التوليدية (GAN) عادةً ذات انحدار تلقائي، لأنّها تنشئ صورة في تمريرة واحدة للأمام وليس بشكل متكرّر على خطوات. ومع ذلك، فإنّ بعض نماذج إنشاء الصور تكون ذات انحدار تلقائي لأنّها تنشئ الصور على عدة خطوات.

الخسارة الإضافية

دالة الخسارة: تُستخدَم مع دالة الخسارة الرئيسية لنموذج الشبكة العصبونية، وتساعد في تسريع عملية التدريب خلال التكرارات الأولى عندما يتم ضبط الأوزان عشوائيًا.

تدفع دوال الفقدان المساعدة التدرجات الفعالة إلى الطبقات السابقة. يسهّل ذلك عملية التقارب أثناء التدريب من خلال معالجة مشكلة التدرّج المتلاشي.

متوسط الدقة عند k

#Metric

مقياس لتلخيص أداء نموذج بشأن طلب واحد يؤدي إلى إنشاء نتائج مرتبة، مثل قائمة مرقّمة باقتراحات كتب متوسط الدقة عند k هو، حسنًا، متوسط قيم الدقة عند k لكل نتيجة ذات صلة. وبالتالي، فإنّ صيغة متوسط مقياس صحة النموذج عند k هي:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

where:

تمثّل السمة$n$ عدد العناصر ذات الصلة في القائمة.

يختلف هذا المقياس عن مقياس الاسترجاع عند k.

انقر على الرمز للاستماع إلى مثال

لنفترض أنّ نموذجًا لغويًا كبيرًا تلقّى طلب البحث التالي:

List the 6 funniest movies of all time in order.

ويُرجع النموذج اللغوي الكبير القائمة التالية:

الجنرال
Mean Girls
Platoon
وصيفات العروس
المواطن كين
This is Spinal Tap

أربعة من الأفلام في القائمة المعروضة مضحكة جدًا (أي أنّها ذات صلة) ولكن فيلمَين دراميان (غير ذي صلة). يوضّح الجدول التالي تفاصيل النتائج:

الموضع	فيلم	هل المحتوى ذو صلة؟	الدقة عند k
1	الجنرال	نعم	1
2	Mean Girls	نعم	1
3	Platoon	لا	غير ذي صلة
4	وصيفات العروس	نعم	0.75
5	المواطن كين	لا	غير ذي صلة
6	This is Spinal Tap	نعم	0.67

عدد النتائج ذات الصلة هو 4. وبالتالي، يمكنك حساب متوسط الدقة عند 6 على النحو التالي:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

شرط محاذاة المحور

#df

في شجرة القرارات، شرط يتضمّن ميزة واحدة فقط. على سبيل المثال، إذا كانت area إحدى السمات، يكون ما يلي شرطًا محاذيًا للمحور:

area > 200

تتعارض مع الشرط المائل.

B

الانتشار العكسي

#fundamentals

الخوارزمية التي تنفّذ نزول تدرّجي في شبكات عصبونية.

يتضمّن تدريب الشبكة العصبونية العديد من التكرارات للدورة التالية المكوّنة من مرحلتَين:

أثناء التمرير الأمامي، يعالج النظام دفعة من الأمثلة لإنتاج التوقعات. يقارن النظام كل توقّع بقيمة كل تصنيف. الفرق بين القيمة المتوقّعة وقيمة التصنيف هو الخطأ في هذا المثال. يجمع النظام الخسائر لجميع الأمثلة من أجل احتساب إجمالي الخسارة للدُفعة الحالية.
أثناء التمرير الخلفي (الانتشار الخلفي)، يقلّل النظام من الفقد من خلال تعديل أوزان جميع الخلايا العصبية في جميع الطبقات المخفية.

غالبًا ما تحتوي الشبكات العصبية على العديد من الخلايا العصبية في العديد من الطبقات المخفية. يساهم كل عصبون من هذه العصبونات في الخسارة الإجمالية بطرق مختلفة. تحدّد عملية الانتشار العكسي ما إذا كان يجب زيادة الأوزان المطبَّقة على الخلايا العصبية المحدّدة أو خفضها.

معدّل التعلّم هو عامل ضرب يتحكّم في درجة زيادة أو خفض كل وزن في كل تمرير للخلف. سيؤدي معدّل التعلّم الكبير إلى زيادة أو تقليل كل وزن بشكل أكبر من معدّل التعلّم الصغير.

من الناحية الحسابية، تنفّذ عملية الانتشار العكسي قاعدة السلسلة من الحساب التفاضلي. أي أنّ عملية الانتشار العكسي تحسب المشتق الجزئي للخطأ بالنسبة إلى كل مَعلمة.

قبل سنوات، كان على مطوّري تعلُّم الآلة كتابة تعليمات برمجية لتنفيذ الانتشار الخلفي. تنفّذ واجهات برمجة التطبيقات الحديثة لتعلُّم الآلة، مثل Keras، عملية الانتشار العكسي نيابةً عنك. أخيرًا!

يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.

التجميع

#df

يشير ذلك المصطلح إلى طريقة تدريب مجموعة موحّدة يتم فيها تدريب كل نموذج مكوِّن على مجموعة فرعية عشوائية من أمثلة التدريب يتم جمعها مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات التي يتم تدريبها باستخدام أسلوب التجميع.

مصطلح Bagging هو اختصار لعبارة Bootstrap Aggregating.

يمكنك الاطّلاع على الغابات العشوائية في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.

حقيبة الكلمات

تمثيل للكلمات في عبارة أو فقرة، بغض النظر عن الترتيب على سبيل المثال، تمثّل طريقة "مجموعة الكلمات" العبارات الثلاث التالية بشكل مطابق:

الكلب يقفز
يقفز الكلب
كلب يقفز فوق

يتم ربط كل كلمة بفهرس في متّجه متفرّق، حيث يتضمّن المتّجه فهرسًا لكل كلمة في المفردات. على سبيل المثال، يتم ربط العبارة الكلب يقفز بمتجه سمات يتضمّن قيمًا غير صفرية في الفهارس الثلاثة التي تتوافق مع الكلمات الكلب ويقفز والـ. يمكن أن تكون القيمة غير الصفرية أيًّا ممّا يلي:

‫1 للإشارة إلى وجود كلمة
عدد المرّات التي تظهر فيها كلمة في المجموعة على سبيل المثال، إذا كانت العبارة الكلب الأحمر الداكن هو كلب ذو فرو أحمر داكن، سيتم تمثيل كل من أحمر داكن وكلب بالرقم 2، بينما سيتم تمثيل الكلمات الأخرى بالرقم 1.
قيمة أخرى، مثل اللوغاريتم الخاص بعدد مرات ظهور كلمة في الحزمة

الخط الأساسي

#Metric

نموذج يُستخدَم كنقطة مرجعية لمقارنة مستوى أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، يمكن أن يكون نموذج الانحدار اللوجستي أساسًا جيدًا للنموذج العميق.

بالنسبة إلى مشكلة معيّنة، يساعد خط الأساس مطوّري النماذج في تحديد الحد الأدنى المتوقّع للأداء الذي يجب أن يحقّقه النموذج الجديد ليكون مفيدًا.

النموذج الأساسي

#generativeAI

نموذج مدرَّب مسبقًا يمكن استخدامه كنقطة بداية للتحسين بهدف معالجة مهام أو تطبيقات محدّدة.

اطّلِع أيضًا على النموذج المدرَّب مسبقًا والنموذج الأساسي.

دفعة

#fundamentals

مجموعة الأمثلة المستخدَمة في إحدى التكرارات التدريبية. يحدّد حجم الدفعة عدد الأمثلة في الدفعة.

راجِع الفترة للحصول على شرح حول كيفية ارتباط الدفعة بفترة.

يمكنك الاطّلاع على الانحدار الخطي: المَعلمات الفائقة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

الاستنتاج المجمّع

#GoogleCloud

عملية استنتاج التوقعات بشأن عدة أمثلة غير مصنّفة مقسّمة إلى مجموعات فرعية أصغر ("دفعات").

يمكن أن تستفيد الاستنتاجات المجمّعة من ميزات التوازي في شرائح الأجهزة المسرّعة. وهذا يعني أنّ العديد من أدوات التسريع يمكنها في الوقت نفسه استنتاج التوقعات بشأن مجموعات مختلفة من الأمثلة غير المصنّفة، ما يؤدي إلى زيادة عدد الاستنتاجات في الثانية بشكل كبير.

يمكنك الاطّلاع على أنظمة تعلُّم الآلة الخاصة بالإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

التسوية على دفعات

تسوية الإدخال أو الإخراج لدوال التنشيط في طبقة مخفية يمكن أن يوفّر التوحيد على مستوى الدُفعات المزايا التالية:

زيادة استقرار الشبكات العصبونية من خلال الحماية من الأوزان الشاذة
تفعيل معدّلات تعلّم أعلى، ما قد يؤدي إلى تسريع التدريب
تقليل المطابقة بشكل مفرط

حجم الدفعة

#fundamentals

عدد الأمثلة في دفعة على سبيل المثال، إذا كان حجم الدفعة 100، سيعالج النموذج 100 مثال لكل تكرار.

في ما يلي استراتيجيات شائعة لحجم الدفعة:

النزول المتدرّج العشوائي (SGD)، حيث يكون حجم الدفعة 1
المجموعة الكاملة، حيث يكون حجم المجموعة هو عدد الأمثلة في مجموعة التدريب بأكملها. على سبيل المثال، إذا كانت مجموعة التدريب تحتوي على مليون مثال، سيكون حجم الدفعة مليون مثال. عادةً ما تكون الدفعة الكاملة استراتيجية غير فعّالة.
دفعة صغيرة التي يتراوح حجم الدفعة فيها عادةً بين 10 و1000. عادةً ما تكون استراتيجية الدُفعات الصغيرة هي الأكثر كفاءة.

يُرجى الاطّلاع على ما يلي لمزيد من المعلومات:

أنظمة تعلُّم الآلة في مرحلة الإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلُّم الآلة"
Deep Learning Tuning Playbook

شبكة عصبية بايزية

شبكة عصبية احتمالية تأخذ في الاعتبار عدم اليقين في الأوزان والنتائج. عادةً ما يتوقّع نموذج الانحدار القياسي للشبكة العصبية قيمة عددية، على سبيل المثال، يتوقّع النموذج القياسي سعر منزل يبلغ 853,000 ريال سعودي. في المقابل، تتوقّع الشبكة العصبية البايزية توزيعًا للقيم، فعلى سبيل المثال، يتوقّع نموذج بايزي سعر منزل يبلغ 853,000 دولار أمريكي بانحراف معياري يبلغ 67,200 دولار أمريكي.

تعتمد الشبكة العصبية البايزية على نظرية بايز لحساب حالات عدم اليقين في الأوزان والتوقعات. يمكن أن تكون الشبكة العصبية البايزية مفيدة عندما يكون من المهم تحديد مقدار عدم اليقين، كما هو الحال في النماذج المتعلقة بالأدوية. يمكن أن تساعد الشبكات العصبونية البايزية أيضًا في منع المطابقة بشكل مفرط.

التحسين البايزي

أسلوب نموذج الانحدار الاحتمالي لتحسين دوال الهدف التي تتطلّب تكلفة حسابية عالية، وذلك من خلال تحسين بديل يحدّد عدم اليقين باستخدام أسلوب التعلّم "بايزي". بما أنّ عملية التحسين المستندة إلى الإحصاء البايزي مكلفة جدًا، يتم استخدامها عادةً لتحسين المهام التي يصعب تقييمها والتي تتضمّن عددًا صغيرًا من المَعلمات، مثل اختيار المَعلمات الفائقة.

معادلة بيلمان

في التعلّم المعزّز، يتم استيفاء الهوية التالية من خلال دالة Q المثالية:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

تطبّق خوارزميات التعلّم المعزّز هذه الهوية لإنشاء تعلّم Q باستخدام قاعدة التعديل التالية:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

بالإضافة إلى التعلّم المعزّز، يمكن تطبيق معادلة بيلمان على البرمجة الديناميكية. يمكنك الاطّلاع على مدخل Wikipedia حول معادلة بيلمان.

‫BERT (تمثيلات الترميز الثنائية الاتجاه من المحولات)

بنية نموذج لتمثيل النص يمكن أن يعمل نموذج BERT مدرَّب كجزء من نموذج أكبر لتصنيف النصوص أو مهام تعلُّم آلي أخرى.

تتضمّن BERT الخصائص التالية:

يستخدم بنية Transformer، وبالتالي يعتمد على الانتباه الذاتي.
يستخدم جزء برنامج الترميز في Transformer. مهمة أداة الترميز هي إنتاج تمثيلات نصية جيدة، وليس تنفيذ مهمة محددة مثل التصنيف.
ثنائي الاتجاه
تستخدم الإخفاء في التدريب غير الخاضع للإشراف.

تشمل صيغ BERT ما يلي:

‫ALBERT، وهو اختصار لـ A Light BERT
LaBSE

يمكنك الاطّلاع على مشاركة BERT كمصدر مفتوح: تدريب مسبق متطوّر لمعالجة اللغات الطبيعية للحصول على نظرة عامة حول BERT.

التحيّز (الأخلاقيات/العدالة)

#responsible

#fundamentals

1. الصور النمطية أو التحيز أو المحاباة تجاه بعض الأشياء أو الأشخاص أو المجموعات دون غيرها يمكن أن تؤثّر هذه الانحيازات في جمع البيانات وتفسيرها، وفي تصميم النظام، وفي طريقة تفاعل المستخدمين مع النظام. تشمل أشكال هذا النوع من التحيز ما يلي:

الانحياز للاقتراحات الآلية
الانحياز التأكيدي
تحيّز المجرب
الانحياز لتشابه المجموعة
التحيّز الضمني
الانحياز لأفراد المجموعة
الانحياز للتشابه خارج المجموعة

2. خطأ منهجي ناتج عن إجراءات أخذ العيّنات أو إعداد التقارير تشمل أشكال هذا النوع من التحيز ما يلي:

انحياز في التغطية
الانحياز لعدم الإجابة
تحيّز المشاركة
الانحياز لتكرار التقارير
انحياز في جمع العيّنات
الانحياز في الاختيار

يجب عدم الخلط بينه وبين مصطلح الانحياز في نماذج تعلُّم الآلة أو انحياز التوقّعات.

يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

الانحياز (الرياضيات) أو مصطلح الانحياز

#fundamentals

نقطة تقاطع أو إزاحة من نقطة الأصل التحيّز هو مَعلمة في نماذج تعلُّم الآلة، ويتم تمثيله بأحد الرمزين التاليين:

b
w₀

على سبيل المثال، التحيز هو b في الصيغة التالية:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

في خط بسيط ثنائي الأبعاد، يشير التحيز إلى "نقطة التقاطع مع المحور الصادي". على سبيل المثال، يكون ميل الخط في الرسم التوضيحي التالي هو 2.

رسم بياني لخط مستقيم بميلان 0.5 وانحياز (نقطة التقاطع مع المحور الصادي) 2

يحدث التحيز لأنّ بعض النماذج لا تبدأ من نقطة الأصل (0,0). على سبيل المثال، لنفترض أنّ تكلفة دخول مدينة ملاهٍ هي 2 يورو، وأنّ هناك رسومًا إضافية تبلغ 0.5 يورو عن كل ساعة يقضيها العميل في المدينة. لذلك، فإنّ نموذجًا يربط التكلفة الإجمالية بانحياز قدره 2 لأنّ أدنى تكلفة هي 2 يورو.

يجب عدم الخلط بين الانحياز والتحيز في الأخلاق والعدالة أو انحياز التوقّعات.

يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

ثنائي الاتجاه

مصطلح يُستخدم لوصف نظام يقيّم النص الذي يسبق والنص الذي يلي قسمًا مستهدفًا من النص. في المقابل، لا يقيّم النظام أحادي الاتجاه سوى النص الذي يسبق قسمًا مستهدفًا من النص.

على سبيل المثال، فكِّر في نموذج لغة مخفي يجب أن يحدّد احتمالات الكلمة أو الكلمات التي تمثّل الخط السفلي في السؤال التالي:

ما هي _____ معك؟

يجب أن يستند نموذج اللغة أحادي الاتجاه إلى الاحتمالات التي يوفّرها السياق فقط، أي الكلمات "ما" و"هو" و "ال". في المقابل، يمكن لنموذج لغة ثنائي الاتجاه أن يستمد السياق أيضًا من الكلمتين "مع" و "أنت"، ما قد يساعد النموذج في إنشاء توقّعات أفضل.

نموذج لغوي ثنائي الاتجاه

نموذج لغوي يحدّد احتمال ظهور رمز مميز معيّن في موضع معيّن ضمن مقتطف نصي استنادًا إلى النص السابق والنص التالي.

bigram

ثنائي حيث N=2

التصنيف الثنائي

#fundamentals

نوع من مهام التصنيف التي تتوقّع إحدى الفئتين الحصريتين المتبادلتين:

الفئة الموجبة
الفئة السلبية

على سبيل المثال، يؤدي نموذجا تعلُّم الآلة التاليان التصنيف الثنائي:

نموذج يحدّد ما إذا كانت الرسائل الإلكترونية غير مرغوب فيها (الفئة الإيجابية) أو مرغوب فيها (الفئة السلبية).
نموذج يقيّم الأعراض الطبية لتحديد ما إذا كان الشخص مصابًا بمرض معيّن (الفئة الإيجابية) أو غير مصاب به (الفئة السلبية).

يختلف عن التصنيف المتعدّد الفئات.

راجِع أيضًا الانحدار اللوجستي وعتبة التصنيف.

يمكنك الاطّلاع على التصنيف في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

حالة ثنائية

#df

في شجرة القرار، الشرط الذي يتضمّن نتيجتَين محتمَلتَين فقط، عادةً نعم أو لا. على سبيل المثال، الشرط الثنائي التالي:

temperature >= 100

يختلف عن الحالة غير الثنائية.

اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.

تحويل القيم

مرادف لتحويل القيم

نموذج الصندوق الأسود

نموذج يصعب أو يستحيل على البشر فهم "استدلاله". أي أنّه على الرغم من أنّ البشر يمكنهم معرفة كيف تؤثر الطلبات في الردود، لا يمكنهم تحديد الطريقة التي يحدّد بها نموذج الصندوق الأسود الرد. بعبارة أخرى، يفتقر نموذج الصندوق الأسود إلى القابلية للتفسير.

معظم النماذج العميقة والنماذج اللغوية الكبيرة هي صناديق سوداء.

‫BLEU (التقييم الثنائي للغة)

مقياس بين 0.0 و1.0 لتقييم الترجمات الآلية، مثلاً من الإسبانية إلى اليابانية

لحساب النتيجة، تقارن مقياس BLEU عادةً ترجمة نموذج تعلُّم الآلة (النص الذي تم إنشاؤه) بترجمة خبير بشري (النص المرجعي). تُحدّد درجة تطابق N-grams في النص الذي تم إنشاؤه مع النص المرجعي درجة BLEU.

يمكنك الاطّلاع على الورقة البحثية الأصلية حول هذا المقياس BLEU: a Method for Automatic Evaluation of Machine Translation.

يمكنك الاطّلاع أيضًا على BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

مقياس لتقييم الترجمات الآلية من لغة إلى أخرى، لا سيما من الإنجليزية وإليها.

بالنسبة إلى الترجمات من الإنجليزية وإليها، تتوافق مقاييس BLEURT بشكل أكبر مع تقييمات البشر مقارنةً بمقاييس BLEU. على عكس BLEU، تركّز BLEURT على التشابهات الدلالية (المعنى) ويمكنها استيعاب إعادة الصياغة.

يعتمد مقياس BLEURT على نموذج لغوي كبير مدرَّب مسبقًا (BERT تحديدًا) يتم بعد ذلك تحسينه باستخدام نصوص من مترجمين بشريين.

المستند الأصلي حول هذا المقياس هو BLEURT: Learning Robust Metrics for Text Generation.

أسئلة منطقية (BoolQ)

#Metric

مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في الإجابة عن الأسئلة بنعم أو لا يتضمّن كل تحدٍّ في مجموعة البيانات ثلاثة عناصر:

طلب بحث
تمثّل هذه السمة فقرة تشير إلى الإجابة عن طلب البحث.
الإجابة الصحيحة، وهي إما نعم أو لا

على سبيل المثال:

طلب البحث: هل هناك أي محطات طاقة نووية في ميشيغان؟
المقطع: ...توفّر ثلاث محطات للطاقة النووية في ميشيغان حوالي% 30 من الكهرباء.
الإجابة الصحيحة: نعم

جمع الباحثون الأسئلة من طلبات بحث مجمّعة ومجهولة المصدر على بحث Google، ثم استخدموا صفحات Wikipedia لتحديد المعلومات الأساسية.

لمزيد من المعلومات، يُرجى الاطّلاع على BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions.

‫BoolQ هي أحد مكوّنات مجموعة SuperGLUE.

BoolQ

#Metric

اختصار الأسئلة المنطقية

التعزيز

إحدى تقنيات تعلُّم الآلة التي تجمع بشكل متكرّر مجموعة من نماذج التصنيف البسيطة وغير الدقيقة جدًا (المعروفة باسم "المصنّفات الضعيفة") في نموذج تصنيف عالي الدقة (يُعرف باسم "المصنّف القوي") من خلال زيادة وزن الأمثلة التي يصنّفها النموذج حاليًا بشكل خاطئ.

يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

مربّع الحدود

في الصورة، تمثّل الإحداثيتان (x، y) مستطيلاً يحيط بمنطقة مهمة، مثل الكلب في الصورة أدناه.

صورة فوتوغرافية لكلب يجلس على أريكة يحيط مربع حدود أخضر
بجسم الكلب، ويقع في أعلى اليمين عند الإحداثيات (275, 1271) وفي أسفل اليسار عند الإحداثيات (2954, 2761).

البث

توسيع شكل معامل في عملية حسابية على المصفوفات إلى أبعاد متوافقة مع هذه العملية على سبيل المثال، يتطلّب الجبر الخطي أن يكون للمعاملَين في عملية إضافة المصفوفة الأبعاد نفسها. وبالتالي، لا يمكنك إضافة مصفوفة ذات شكل (m, n) إلى متجه بطول n. تتيح عملية البث هذه العملية من خلال توسيع المتّجه الذي يبلغ طوله n إلى مصفوفة ذات شكل (m, n) عن طريق تكرار القيم نفسها في كل عمود.

انقر على الرمز للاستماع إلى مثال.

بالنظر إلى التعريفات التالية لكل من A وB، يمنع الجبر الخطي إجراء عملية A+B لأنّ A وB لهما أبعاد مختلفة:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

ومع ذلك، يتيح البث إجراء العملية A+B من خلال توسيع B بشكل افتراضي إلى:

 [[2, 2, 2],
  [2, 2, 2]]

وبالتالي، أصبحت العملية A+B صالحة الآن:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

اطّلِع على الوصف التالي للبث في NumPy للحصول على مزيد من التفاصيل.

تصنيف البيانات

#fundamentals

تحويل سمة واحدة إلى سمات ثنائية متعددة تُعرف باسم حِزم أو فئات، عادةً ما يكون ذلك استنادًا إلى نطاق قيمة. عادةً ما تكون السمة المقطّعة خاصية مستمرة.

على سبيل المثال، بدلاً من تمثيل درجة الحرارة كميزة واحدة مستمرة ذات نقطة عائمة، يمكنك تقسيم نطاقات درجات الحرارة إلى فئات منفصلة، مثل:

ستكون درجة الحرارة التي تقل عن أو تساوي 10 درجات مئوية هي فئة "البارد".
ستكون درجات الحرارة بين 11 و24 درجة مئوية ضمن الفئة "معتدلة".
>= 25 درجة مئوية ستكون الفئة "دافئ".

سيتعامل النموذج مع كل قيمة في المجموعة نفسها بشكل مماثل. على سبيل المثال، تندرج القيمتان 13 و22 ضمن الفئة المعتدلة، لذا يتعامل النموذج مع القيمتين بشكل مماثل.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

إذا مثّلت درجة الحرارة كسمة مستمرة، سيتعامل النموذج مع درجة الحرارة كسمة واحدة. إذا مثّلت درجة الحرارة بثلاث مجموعات بيانات، سيتعامل النموذج مع كل مجموعة بيانات كميزة منفصلة. أي أنّ النموذج يمكنه تعلُّم العلاقات المنفصلة لكل مجموعة مع التصنيف. على سبيل المثال، يمكن لنموذج الانحدار الخطي أن يتعرّف على أوزان منفصلة لكل مجموعة.

تؤدي زيادة عدد المجموعات إلى تعقيد النموذج من خلال زيادة عدد العلاقات التي يجب أن يتعلّمها النموذج. على سبيل المثال، تشكّل الفئات الباردة والمعتدلة والدافئة ثلاث ميزات منفصلة أساسًا لتدريب النموذج عليها. إذا قررت إضافة مجموعتَين أخريَين، مثل "بارد جدًا" و"ساخن"، سيتعين على النموذج التدريب على خمس ميزات منفصلة.

كيف تعرف عدد المجموعات التي يجب إنشاؤها أو النطاقات التي يجب أن تتضمّنها كل مجموعة؟ وتتطلّب الإجابات عادةً إجراء قدر كبير من التجارب.

لمزيد من المعلومات، راجِع البيانات الرقمية: التصنيف إلى فئات في "دورة مكثّفة عن تعلّم الآلة".

C

طبقة المعايرة

تعديل ما بعد التوقّع، ويتم إجراؤه عادةً للتعويض عن تحيّز التوقّع. يجب أن تتطابق التوقعات والاحتمالات المعدَّلة مع توزيع مجموعة من التصنيفات التي تمت ملاحظتها.

إنشاء العناصر المحفّزة لعرض الإعلانات

المجموعة الأولية من الاقتراحات التي يختارها نظام الاقتراحات على سبيل المثال، تخيّل مكتبة تبيع 100,000 عنوان. تنشئ مرحلة إنشاء المرشّحين قائمة أصغر بكثير من الكتب المناسبة لمستخدم معيّن، ولنفترض أنّها تضم 500 كتاب. ولكن حتى 500 كتاب هو عدد كبير جدًا لاقتراحه على المستخدم. تؤدي المراحل اللاحقة والأكثر تكلفة في نظام التوصية (مثل تسجيل النتائج وإعادة الترتيب) إلى تقليل عدد النتائج الـ 500 إلى مجموعة أصغر بكثير وأكثر فائدة من الاقتراحات.

يمكنك الاطّلاع على نظرة عامة حول إنشاء المرشّحين في دورة "أنظمة الاقتراحات" التدريبية للحصول على مزيد من المعلومات.

تحليل العينات المُحتملة

تحسين وقت التدريب الذي يحسب احتمالية لجميع التصنيفات الإيجابية، باستخدام، على سبيل المثال، softmax، ولكن فقط لعينة عشوائية من التصنيفات السلبية. على سبيل المثال، إذا كان لدينا مثال مصنّف على أنّه كلب بيغل وكلب، فإنّ تحليل العينات المُحتملة يحسب الاحتمالات المتوقّعة وحدود الخسارة المقابلة لما يلي:

بيغل
dog
مجموعة فرعية عشوائية من الفئات السلبية المتبقية (على سبيل المثال، قطة ومصاصة وسياج).

الفكرة هي أنّ الفئات السلبية يمكن أن تستفيد من التعزيز السلبي الأقل تكرارًا طالما أنّ الفئات الإيجابية تتلقّى دائمًا تعزيزًا إيجابيًا مناسبًا، وقد تم رصد ذلك تجريبيًا بالفعل.

يُعدّ تحليل العينات المُحتملة أكثر فعالية من حيث الحوسبة مقارنةً بخوارزميات التدريب التي تحتسب التوقّعات لكل الفئات السالبة، لا سيما عندما يكون عدد الفئات السالبة كبيرًا جدًا.

البيانات الفئوية

#fundamentals

السمات التي تتضمّن مجموعة محدّدة من القيم المحتملة على سبيل المثال، لنفترض أنّ هناك ميزة فئوية باسم traffic-light-state، والتي يمكن أن تتضمّن إحدى القيم الثلاث التالية فقط:

red
yellow
green

من خلال تمثيل traffic-light-state كميزة فئوية، يمكن للنموذج التعرّف على التأثيرات المختلفة لكل من red وgreen وyellow في سلوك السائق.

يُطلق على الميزات الفئوية أحيانًا اسم الميزات المنفصلة.

يختلف عن البيانات الرقمية.

لمزيد من المعلومات، راجِع التعامل مع البيانات الفئوية في "دورة مكثّفة عن تعلّم الآلة".

نموذج لغوي سببي

مرادف نموذج اللغة أحادي الاتجاه

يمكنك الاطّلاع على نموذج اللغة الثنائي الاتجاه للمقارنة بين الأساليب المختلفة للاتجاهات في نماذج اللغة.

CB

#Metric

اختصار CommitmentBank

مركز

#clustering

مركز المجموعة كما تحدده خوارزمية متوسطات تصنيفية أو وسيط تصنيفي. على سبيل المثال، إذا كانت قيمة k هي 3، ستعثر خوارزمية متوسطات تصنيفية أو خوارزمية وسيط تصنيفي على 3 مراكز.

لمزيد من المعلومات، يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع.

التجميع العنقودي المستند إلى النقاط المركزية

#clustering

فئة من خوارزميات التجميع التي تنظّم البيانات في مجموعات غير هرمية، وتُعد خوارزمية متوسطات تصنيفية الأكثر استخدامًا بين خوارزميات التجميع المستندة إلى مركز.

يختلف ذلك عن خوارزميات التجميع الهرمي.

لمزيد من المعلومات، يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع.

توجيه سلسلة الأفكار

#generativeAI

تقنية هندسة الطلبات التي تشجّع النموذج اللغوي الكبير (LLM) على شرح طريقة تفكيره خطوة بخطوة. على سبيل المثال، اطّلِع على الطلب التالي، مع التركيز بشكل خاص على الجملة الثانية:

كم عدد قوى الجاذبية التي سيشعر بها السائق في سيارة تنتقل من 0 إلى 60 ميلاً في الساعة خلال 7 ثوانٍ؟ في الإجابة، أدرِج جميع العمليات الحسابية ذات الصلة.

من المرجّح أن يتضمّن ردّ النموذج اللغوي الكبير ما يلي:

عرض سلسلة من صيغ الفيزياء، مع إدخال القيم 0 و60 و7 في الأماكن المناسبة
اشرح سبب اختيار هذه الصيغ وما تعنيه المتغيّرات المختلفة.

يفرض الطلب المستند إلى سلسلة الأفكار على النموذج اللغوي الكبير إجراء جميع العمليات الحسابية، ما قد يؤدي إلى تقديم إجابة أكثر صحة. بالإضافة إلى ذلك، يتيح أسلوب "سلسلة الأفكار" للمستخدم فحص خطوات النموذج اللغوي الكبير لتحديد ما إذا كانت الإجابة منطقية أم لا.

مقياس دقة الاختبار (F-score) لعدد N من الأحرف المتجاورة (ChrF)

#Metric

مقياس لتقييم نماذج الترجمة الآلية تحدّد نتيجة F الخاصة بـ N-gram للأحرف درجة تطابق N-gram في النص المرجعي مع N-gram في النص الذي تم إنشاؤه بواسطة نموذج تعلّم آلي.

يشبه مقياس F-score الخاص بـ N-gram للأحرف المقاييس في عائلتَي ROUGE وBLEU، باستثناء ما يلي:

تعمل نتيجة F-score لـ N-gram الأحرف على N-gram الأحرف.
تعمل مقياسا ROUGE وBLEU على كلمات N-grams أو رموز.

محادثة

#generativeAI

محتوى حوار ذهابًا وإيابًا مع نظام تعلُّم آلي، ويكون عادةً نموذجًا لغويًا كبيرًا تصبح المحادثة السابقة في الدردشة (ما كتبته وكيف ردّ النموذج اللغوي الكبير) هي سياق الأجزاء اللاحقة من الدردشة.

روبوت الدردشة هو تطبيق لنموذج لغوي كبير.

نقطة تفتيش

البيانات التي تسجّل حالة المَعلمات الخاصة بالنموذج، سواء أثناء التدريب أو بعد اكتماله على سبيل المثال، أثناء التدريب، يمكنك إجراء ما يلي:

إيقاف التدريب، ربما عن قصد أو نتيجة حدوث أخطاء معيّنة
احفظ النقطة المرجعية.
بعد ذلك، أعِد تحميل نقطة التحقّق، ربما على جهاز مختلف.
إعادة بدء التدريب

اختيار البدائل المعقولة (COPA)

#Metric

مجموعة بيانات لتقييم مدى قدرة نموذج لغوي كبير على تحديد أفضل إجابتَين بديلتَين لفرضية معيّنة. يتألف كل تحدٍ في مجموعة البيانات من ثلاثة عناصر:

مقدمة، وهي عادةً عبارة متبوعة بسؤال
إجابتان محتملتان عن السؤال المطروح في الفرضية، إحداهما صحيحة والأخرى غير صحيحة
الإجابة الصحيحة

على سبيل المثال:

الفرضية: كسر الرجل إصبع قدمه. ما هو سبب حدوث ذلك؟
الإجابات المحتملة:
1. ظهر ثقب في جوربه.
2. سقط مطرقة على قدمه.
الإجابة الصحيحة: 2

‫COPA هي أحد مكوّنات مجموعة SuperGLUE.

دقة الاقتباس

مقياس يجيب عن السؤال التالي:

ما هي النسبة المئوية للاقتباسات في ردّ النموذج اللغوي الكبير التي كانت صحيحة وداعمة؟

أي نسبة الاقتباسات التي تتضمّن الحقائق الدقيقة أو المعلومات ذات الصلة المطلوبة للتحقّق من الادّعاء الوارد في ردّ النموذج اللغوي الكبير.

على سبيل المثال، إذا استندت إجابة من نموذج لغوي كبير (LLM) إلى 10 مستندات، ولكن كان 7 من الاقتباسات فقط صحيحة ومناسبة، ستكون دقة الاقتباس 0.7.

تذكُّر الاقتباس

مقياس يجيب عن السؤال التالي:

ما هي النسبة المئوية للمستندات المصدر التي استخدمها النموذج اللغوي الكبير لإنشاء الردّ والتي تم الاستشهاد بها في الردّ؟

على سبيل المثال، إذا اعتمد نموذج لغوي كبير على 20 مستندًا لتكوين رده، ولكن لم يشر الرد إلا إلى 11 مستندًا منها، ستكون نسبة استرجاع الاقتباسات 0.55.

صنف

#fundamentals

فئة يمكن أن ينتمي إليها تصنيف. على سبيل المثال:

في نموذج التصنيف الثنائي الذي يرصد الرسائل غير المرغوب فيها، قد تكون الفئتان رسائل غير مرغوب فيها وليست رسائل غير مرغوب فيها.
في نموذج التصنيف المتعدّد الفئات الذي يحدّد سلالات الكلاب، قد تكون الفئات بودل وبيغل وبَغ وما إلى ذلك.

يتنبأ نموذج التصنيف بفئة. في المقابل، يتنبأ نموذج الانحدار برقم بدلاً من فئة.

يمكنك الاطّلاع على التصنيف في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

مجموعة بيانات متوازنة الفئات

مجموعة بيانات تحتوي على تصنيفات فئوية يكون فيها عدد مثيلات كل فئة متساويًا تقريبًا. على سبيل المثال، لنفترض مجموعة بيانات نباتية يمكن أن يكون تصنيفها الثنائي إما نبات أصلي أو نبات غير أصلي:

مجموعة البيانات التي تتضمّن 515 نباتًا أصليًا و485 نباتًا غير أصلي هي مجموعة بيانات متوازنة الفئات.
مجموعة البيانات التي تتضمّن 875 نباتًا أصليًا و125 نباتًا غير أصلي هي مجموعة بيانات غير متوازنة الفئات.

لا يوجد خط فاصل رسمي بين مجموعات البيانات المتوازنة الفئات ومجموعات البيانات غير المتوازنة الفئات. لا يصبح التمييز مهمًا إلا عندما يتعذّر على نموذج تم تدريبه على مجموعة بيانات غير متوازنة الفئات أن يتقارب. راجِع مجموعات البيانات: مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة" للحصول على التفاصيل.

نموذج التصنيف

#fundamentals

نموذج يكون توقّعه فئة. على سبيل المثال، كلّ ما يلي هي نماذج تصنيف:

نموذج يتوقّع لغة الجملة المُدخَلة (هل هي فرنسية؟ الإسبانية؟ الإيطالية؟
نموذج يتوقّع أنواع الأشجار (هل هي قيقب؟ سنديان؟ Baobab?).
نموذج يتنبأ بالفئة الإيجابية أو السلبية لحالة طبية معيّنة.

في المقابل، تتنبّأ نماذج الانحدار بالأرقام بدلاً من الفئات.

في ما يلي نوعان شائعان من نماذج التصنيف:

التصنيف الثنائي
التصنيف المتعدّد الفئات

عتبة التصنيف

#fundamentals

في التصنيف الثنائي، يكون الناتج رقمًا بين 0 و1 يحوّل الناتج الأولي لنموذج الانحدار اللوجستي إلى توقع إما الفئة الإيجابية أو الفئة السلبية. ملاحظة: عتبة التصنيف هي قيمة يختارها الإنسان، وليست قيمة يختارها تدريب النموذج.

يُخرج نموذج الانحدار اللوجستي قيمة أولية بين 0 و1. بعد ذلك:

إذا كانت هذه القيمة الأولية أكبر من عتبة التصنيف، سيتم توقّع الفئة الموجبة.
إذا كانت هذه القيمة الأولية أقل من عتبة التصنيف، يتم التنبؤ بالفئة السالبة.

على سبيل المثال، لنفترض أنّ عتبة التصنيف هي 0.8. إذا كانت القيمة الأولية 0.9، يتوقّع النموذج الفئة الموجبة. إذا كانت القيمة الأولية 0.7، يتوقّع النموذج الفئة السلبية.

يؤثر اختيار عتبة التصنيف بشكل كبير في عدد الموجب الخاطئ و السالب الخاطئ.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

مع تطوّر النماذج أو مجموعات البيانات، يغيّر المهندسون أحيانًا عتبة التصنيف. عندما تتغيّر عتبة التصنيف، يمكن أن تتحوّل توقّعات الفئة الموجبة فجأة إلى فئات سالبة، والعكس صحيح.

على سبيل المثال، لنفترض نموذجًا للتنبؤ بالأمراض باستخدام التصنيف الثنائي. لنفترض أنّه عند تشغيل النظام في السنة الأولى:

القيمة الأولية لمريض معيّن هي 0.95.
عتبة التصنيف هي 0.94.

لذلك، يشخّص النظام الفئة الإيجابية. (يصدر المريض صوتًا مرتفعًا، "لا! أنا مريض")

بعد عام، قد تبدو القيم على النحو التالي:

تبقى القيمة الأولية للمريض نفسه عند 0.95.
تتغيّر عتبة التصنيف إلى 0.97.

لذلك، يعيد النظام الآن تصنيف هذا المريض ضمن الفئة السلبية. ("يوم سعيد! أنا لستُ مريضًا") المريض نفسه تشخيص مختلف

يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

مصنِّف

#fundamentals

مصطلح غير رسمي يشير إلى نموذج التصنيف

مجموعة بيانات غير متوازنة الفئات

#fundamentals

مجموعة بيانات خاصة بالتصنيف يختلف فيها إجمالي عدد التصنيفات لكل فئة بشكل كبير. على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات تصنيف ثنائي مقسّمة إلى فئتَين على النحو التالي:

مليون تصنيف سلبي
10 تصنيفات إيجابية

نسبة التصنيفات السلبية إلى الإيجابية هي 100,000 إلى 1، لذا هذه مجموعة بيانات غير متوازنة الفئات.

في المقابل، مجموعة البيانات التالية متوازنة الفئات لأنّ نسبة التصنيفات السلبية إلى التصنيفات الإيجابية قريبة نسبيًا من 1:

‫517 تصنيفًا سلبيًا
‫483 تصنيفًا موجبًا

يمكن أن تكون مجموعات البيانات المتعددة الفئات غير متوازنة الفئات أيضًا. على سبيل المثال، مجموعة البيانات التالية الخاصة بالتصنيف المتعدد الفئات هي أيضًا غير متوازنة الفئات لأنّ إحدى التصنيفات تتضمّن أمثلة أكثر بكثير من التصنيفين الآخرين:

‫1,000,000 تصنيف من الفئة "أخضر"
‫200 تصنيف بالصف "purple"
‫350 تصنيفًا بالصف "orange"

يمكن أن يواجه تدريب مجموعات البيانات غير المتوازنة الفئات تحديات خاصة. راجِع مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة" للحصول على التفاصيل.

راجِع أيضًا الإنتروبيا وفئة الأغلبية وفئة الأقلية.

القص

#fundamentals

أسلوب للتعامل مع القيم الشاذة من خلال تنفيذ أحد الإجراءَين التاليَين أو كليهما:

تخفيض قيم السمة التي تتجاوز الحد الأقصى إلى هذا الحد الأقصى
زيادة قيم الميزات التي تقل عن الحد الأدنى إلى هذا الحد الأدنى

على سبيل المثال، لنفترض أنّ <0.5% من قيم ميزة معيّنة تقع خارج النطاق 40-60. في هذه الحالة، يمكنك إجراء ما يلي:

يجب اقتطاع جميع القيم التي تزيد عن 60 (الحدّ الأقصى) لتصبح 60 بالضبط.
يجب أن تكون جميع القيم الأقل من 40 (الحد الأدنى) هي 40 بالضبط.

يمكن أن تؤدي القيم الشاذة إلى إتلاف النماذج، ما يؤدي أحيانًا إلى تجاوز الأوزان للحد الأقصى أثناء التدريب. يمكن أن تؤدي بعض القيم الشاذة أيضًا إلى إفساد مقاييس مثل الدقة بشكل كبير. القص هو أسلوب شائع للحدّ من الضرر.

تفرض عملية اقتطاع التدرّج أن تكون قيم التدرّج ضمن نطاق محدّد أثناء التدريب.

يمكنك الاطّلاع على البيانات الرقمية: التسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

Cloud TPU

#TensorFlow

#GoogleCloud

أداة تسريع أجهزة متخصّصة مصمّمة لتسريع مهام تعلُّم الآلة على Google Cloud

التجميع

#clustering

تجميع الأمثلة ذات الصلة، خاصةً أثناء التعلّم غير الموجَّه بعد تجميع كل الأمثلة، يمكن للمستخدم أن يقدّم بشكل اختياري معنى لكل مجموعة.

تتوفّر العديد من خوارزميات التجميع العنقودي. على سبيل المثال، تجمع خوارزمية متوسطات تصنيفية الأمثلة استنادًا إلى مدى قربها من مركز، كما هو موضّح في المخطّط البياني التالي:

رسم بياني ثنائي الأبعاد يمثّل المحور س عرض الشجرة،
ويمثّل المحور ص ارتفاع الشجرة. يحتوي الرسم البياني على نقطتَين مركزيتَين وعشرات من نقاط البيانات. يتم تصنيف نقاط البيانات استنادًا إلى مدى تقاربها. أي أنّ نقاط البيانات الأقرب إلى إحدى النقاط المركزية يتم تصنيفها ضمن المجموعة 1، بينما يتم تصنيف نقاط البيانات الأقرب إلى النقطة المركزية الأخرى ضمن المجموعة 2.

يمكن بعد ذلك أن يراجع باحث بشري المجموعات ويصنّف المجموعة 1 على أنّها "أشجار قزمة" والمجموعة 2 على أنّها "أشجار كاملة الحجم".

كمثال آخر، لنفترض خوارزمية تجميع عنقودي تستند إلى مسافة المثال من نقطة مركزية، كما هو موضّح أدناه:

يتم ترتيب عشرات نقاط البيانات في دوائر متحدة المركز،
مثل الثقوب حول مركز لوحة رمي السهام. يتم تصنيف حلقة نقاط البيانات الداخلية على أنّها المجموعة 1، ويتم تصنيف الحلقة الوسطى على أنّها المجموعة 2، ويتم تصنيف الحلقة الخارجية على أنّها المجموعة 3.

يمكنك الاطّلاع على دورة التجميع لمزيد من المعلومات.

التكيّف المشترك

سلوك غير مرغوب فيه يحدث عندما تتوقّع الخلايا العصبية أنماطًا في بيانات التدريب من خلال الاعتماد بشكل حصري تقريبًا على نواتج خلايا عصبية أخرى معيّنة بدلاً من الاعتماد على سلوك الشبكة ككل. عندما لا تتوفّر الأنماط التي تؤدي إلى التكيّف المشترك في بيانات التحقّق، يؤدي التكيّف المشترك إلى المطابقة بشكل مفرط. تؤدي تسوية الإسقاط إلى الحد من التكيّف المشترك، لأنّ التسرب يضمن عدم اعتماد العصبونات على عصبونات أخرى معيّنة فقط.

الفلترة حسب الاهتمامات الجماعية

تقديم توقّعات بشأن اهتمامات مستخدم معيّن استنادًا إلى اهتمامات العديد من المستخدمين الآخرين يتم استخدام الفلترة حسب الاهتمامات الجماعية غالبًا في أنظمة التوصية.

يمكنك الاطّلاع على الترشيح التعاوني في دورة "أنظمة الاقتراحات" التدريبية للحصول على مزيد من المعلومات.

CommitmentBank (CB)

#Metric

مجموعة بيانات لتقييم مدى إتقان نموذج لغوي كبير في تحديد ما إذا كان مؤلف مقطع نصي يعتقد بصحة عبارة مستهدَفة ضمن هذا المقطع. يحتوي كل إدخال في مجموعة البيانات على ما يلي:

فقرة
عبارة مستهدَفة ضمن هذه الفقرة
قيمة منطقية تشير إلى ما إذا كان مؤلف المقطع يعتقد أنّ الجملة المستهدَفة

على سبيل المثال:

الفقرة: كم كان من الممتع سماع ضحكة أرتميس. إنّها طفلة جدّية للغاية. لم أكن أعرف أنّ لديها حس فكاهي.
الجملة المستهدَفة: كانت تتمتّع بروح الدعابة
قيمة منطقية: True، ما يعني أنّ المؤلف يعتقد أنّ الجملة المستهدَفة

‫CommitmentBank هو أحد مكوّنات مجموعة SuperGLUE.

نموذج مضغوط

أي نموذج صغير مصمّم للتشغيل على أجهزة صغيرة ذات موارد حسابية محدودة على سبيل المثال، يمكن تشغيل النماذج المضغوطة على الهواتف الجوّالة أو الأجهزة اللوحية أو الأنظمة المضمّنة.

الحوسبة

(اسم) الموارد الحسابية التي يستخدمها نموذج أو نظام، مثل قوة المعالجة والذاكرة ومساحة التخزين

اطّلِع على شرائح تسريع الأداء.

تغيُّر المفهوم

تغيير في العلاقة بين الميزات والتسمية وبمرور الوقت، يؤدي تغيُّر المفهوم إلى تقليل جودة النموذج.

أثناء التدريب، يتعرّف النموذج على العلاقة بين الميزات والتصنيفات في مجموعة التدريب. إذا كانت التصنيفات في مجموعة التدريب تمثّل العالم الحقيقي بشكل جيد، من المفترض أن يقدّم النموذج توقّعات جيدة في العالم الحقيقي. ومع ذلك، بسبب تغيُّر المفهوم، تميل توقّعات النموذج إلى التدهور بمرور الوقت.

على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتنبّأ بما إذا كان طراز سيارة معيّن "موفرًا للوقود" أم لا. أي أنّ الميزات يمكن أن تكون:

وزن السيارة
ضغط المحرّك
نوع الانتقال

بينما يكون التصنيف إما:

موفر للوقود
غير فعّالة في استهلاك الوقود

ومع ذلك، يتغيّر مفهوم "السيارة الموفّرة للوقود" باستمرار. فطراز السيارة الذي تم تصنيفه على أنّه موفر للوقود في عام 1994 سيتم تصنيفه على الأرجح على أنّه غير موفر للوقود في عام 2024. النموذج الذي يعاني من تغيُّر المفهوم يميل إلى تقديم توقّعات أقل فائدة بمرور الوقت.

قارِن بينها وبين عدم الثبات.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

للتعويض عن تغيُّر المفهوم، يجب إعادة تدريب النماذج بشكل أسرع من معدّل تغيُّر المفهوم. على سبيل المثال، إذا أدّى تدهور أداء النموذج إلى خفض دقة النموذج بهامش كبير كل شهرَين، عليك إعادة تدريب النموذج بشكل متكرّر أكثر من كل شهرَين.

الشرط

#df

في شجرة القرارات، يشير ذلك المصطلح إلى أي عقدة تجري اختبارًا. على سبيل المثال، تحتوي شجرة القرارات التالية على شرطَين:

شجرة قرارات تتضمّن شرطَين: (x > 0) و(y > 0).

يُطلق على الشرط أيضًا اسم تقسيم أو اختبار.

حالة التباين مع ورقة الشجر

انظر أيضًا:

الشرط الثنائي
حالة غير ثنائية
axis-aligned-condition
oblique-condition

اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.

التلفيق

مرادف لكلمة هلوسة

من المحتمل أنّ مصطلح "التلفيق" هو المصطلح الأكثر دقة من الناحية الفنية مقارنةً بمصطلح "الهلوسة". ومع ذلك، أصبحت الهلوسة شائعة أولاً.

الإعدادات

عملية تحديد قيم السمات الأولية المستخدَمة لتدريب نموذج، بما في ذلك:

طبقات النموذج
موقع البيانات
المعلَمات الفائقة، مثل:

في مشاريع تعلُّم الآلة، يمكن إجراء عملية الإعداد من خلال ملف إعداد خاص أو باستخدام مكتبات الإعداد، مثل ما يلي:

الانحياز التأكيدي

#responsible

الميل إلى البحث عن المعلومات وتفسيرها وتفضيلها وتذكُّرها بطريقة تؤكد صحة المعتقدات أو الفرضيات الموجودة مسبقًا قد يجمع مطوّرو تعلُّم الآلة البيانات أو يصنّفونها عن غير قصد بطرق تؤثّر في نتيجة تدعم معتقداتهم الحالية. الانحياز التأكيدي هو شكل من أشكال التحيز الضمني.

تحيّز المجرب هو شكل من أشكال التحيز التأكيدي، حيث يواصل المجرب تدريب النماذج إلى أن يتم تأكيد فرضية موجودة مسبقًا.

مصفوفة نجاح التوقعات

#fundamentals

جدول NxN يلخّص عدد التوقّعات الصحيحة والخاطئة التي قدّمها نموذج التصنيف. على سبيل المثال، إليك مصفوفة نجاح التوقعات التالية الخاصة بنموذج تصنيف ثنائي:

	ورم (متوقّع)	غير ورم (متوقّع)
ورم (معلومات فعلية)	‫18 (TP)	1 (FN)
غير ورمي (معلومات فعلية)	‫6 (FP)	‫452 (TN)

تعرض مصفوفة نجاح التوقعات السابقة ما يلي:

من بين 19 توقّعًا كانت فيها الحقيقة الأساسية هي "ورم"، صنّف النموذج 18 منها بشكل صحيح وصنّف 1 منها بشكل غير صحيح.
من بين 458 توقّعًا كانت الحقيقة الأساسية فيها هي "غير ورمي"، صنّف النموذج 452 منها بشكل صحيح و6 منها بشكل غير صحيح.

يمكن أن تساعدك مصفوفة نجاح التوقعات الخاصة بمسألة التصنيف المتعدد الفئات في تحديد أنماط الأخطاء. على سبيل المثال، لنفترض مصفوفة نجاح التوقعات التالية لنموذج تصنيف متعدّد الفئات يتضمّن 3 فئات ويصنّف ثلاثة أنواع مختلفة من زهور السوسن (فيرجينيكا وفيرسيكولور وسيتوسا). عندما كانت الحقيقة الأساسية هي Virginica، يوضّح مصفوفة نجاح التوقعات أنّ النموذج كان أكثر عرضة للتنبؤ بشكل خاطئ بأنّها Versicolor بدلاً من Setosa:

	Setosa (متوقّع)	Versicolor (متوقّعة)	Virginica (القيمة المتوقّعة)
Setosa (المعلومات الفعلية)	88	12	0
Versicolor (المعلومات الفعلية)	6	141	7
Virginica (المعلومات الفعلية)	2	27	109

كمثال آخر، يمكن أن تكشف مصفوفة نجاح التوقعات أنّ نموذجًا تم تدريبه على التعرّف على الأرقام المكتوبة بخط اليد يميل إلى توقّع الرقم 9 بدلاً من 4، أو توقّع الرقم 1 بدلاً من 7.

تحتوي مصفوفات نجاح التوقعات على معلومات كافية لحساب مجموعة متنوعة من مقاييس الأداء، بما في ذلك مقياس صحة النموذج ومقياس المراجعة.

تحليل الدوائر الانتخابية

تقسيم الجملة إلى بنى نحوية أصغر ("مكونات") يمكن لجزء لاحق من نظام تعلُّم الآلة، مثل نموذج فهم اللغات الطبيعية، تحليل المكوّنات بسهولة أكبر من الجملة الأصلية. على سبيل المثال، فكِّر في الجملة التالية:

تبنّى صديقي قطتين.

يمكن لمحلّل البنية تقسيم هذه الجملة إلى المكوّنين التاليين:

صديقي هي عبارة اسمية.
تبنّيتُ قطتَين هي عبارة فعلية.

ويمكن تقسيم هذه المكوّنات إلى مكوّنات أصغر. على سبيل المثال، عبارة الفعل

تبنّيتُ قطتَين

يمكن تقسيمها إلى:

adopted هي فعل.
قطتان هي عبارة اسمية أخرى.

تضمين اللغة حسب السياق

#generativeAI

تضمين يقترب من "فهم" الكلمات والعبارات بالطرق التي يفهمها المتحدثون بطلاقة. يمكن لعمليات التضمين المستندة إلى السياق فهم التركيب النحوي والدلالات والسياق المعقّد.

على سبيل المثال، ضع في اعتبارك تضمينات الكلمة الإنجليزية cow. يمكن أن تمثّل التضمينات القديمة، مثل word2vec، الكلمات الإنجليزية بطريقة تجعل المسافة في مساحة التضمين بين بقرة وثور مشابهة للمسافة بين نعجة (أنثى الخروف) وكبش (ذكر الخروف) أو بين أنثى وذكر. يمكن أن تتجاوز تضمينات اللغة المستندة إلى السياق ذلك من خلال إدراك أنّ المتحدثين باللغة الإنجليزية يستخدمون أحيانًا كلمة بقرة بشكل غير رسمي للإشارة إلى البقرة أو الثور.

قدرة الاستيعاب

#generativeAI

عدد الرموز المميزة التي يمكن للنموذج معالجتها في طلب معيّن كلما كانت قدرة الاستيعاب أكبر، زادت المعلومات التي يمكن للنموذج استخدامها لتقديم ردود متسقة وذات صلة بالطلب.

خاصية مستمرة

#fundamentals

ميزة ذات فاصلة عشرية عائمة مع نطاق لا نهائي من القيم المحتملة، مثل درجة الحرارة أو الوزن

يجب التمييز بينها وبين الخاصية المحدّدة القيم.

عينة عشوائية

استخدام مجموعة بيانات لم يتم جمعها بشكل علمي لإجراء تجارب سريعة في وقت لاحق، من الضروري التبديل إلى مجموعة بيانات تم جمعها بشكل علمي.

التقارب

#fundamentals

هي حالة يتم الوصول إليها عندما تتغير قيم الخسارة بشكل طفيف جدًا أو لا تتغير على الإطلاق مع كل تكرار. على سبيل المثال، يشير منحنى الخسارة التالي إلى التقارب عند حوالي 700 تكرار:

مخطط ديكارتي المحور X هو الخسارة. يمثّل المحور الصادي عدد تكرارات التدريب. يكون معدّل الفقدان مرتفعًا جدًا خلال التكرارات القليلة الأولى، ولكنّه ينخفض بشكل حاد. بعد حوالي 100 تكرار، لا يزال معدل الخطأ ينخفض ولكن بشكل أكثر تدريجية. بعد حوالي 700 تكرار،
يظل معدل الخطأ ثابتًا.

يتقارب النموذج عندما لا يؤدي التدريب الإضافي إلى تحسينه.

في التعلم العميق، تظل قيم الخسارة ثابتة أحيانًا أو قريبة من ذلك لعدة تكرارات قبل أن تنخفض أخيرًا. خلال فترة طويلة من ثبات قيم الخسارة، قد تشعر مؤقتًا بأنّ هناك تقاربًا خاطئًا.

اطّلِع أيضًا على الإيقاف المبكر.

لمزيد من المعلومات، يُرجى الاطّلاع على تقارب النماذج ومنحنيات الخسارة في "دورة مكثّفة عن تعلّم الآلة".

البرمجة الحوارية

#generativeAI

محادثة متكرّرة بينك وبين نموذج ذكاء اصطناعي توليدي بغرض إنشاء برامج تُصدر طلبًا يصف بعض البرامج. بعد ذلك، يستخدم النموذج هذا الوصف لإنشاء الرمز. بعد ذلك، تقدّم طلبًا جديدًا لمعالجة العيوب في الطلب السابق أو في الرمز البرمجي الذي تم إنشاؤه، وينشئ النموذج رمزًا برمجيًا معدَّلاً. ويستمرّ تبادل الرسائل بينكما إلى أن يصبح البرنامج الذي تم إنشاؤه جيدًا بما يكفي.

إنّ ترميز المحادثات هو في الأساس المعنى الأصلي للبرمجة الوصفية.

يختلف عن الترميز التحديدي.

دالّة محدّبة

الدالة التي تكون فيها المنطقة الواقعة فوق الرسم البياني للدالة مجموعة محدّبة. تتخذ الدالة المحدبة النموذجية شكلًا يشبه الحرف U. على سبيل المثال، الدوال التالية كلها دوال محدّبة:

منحنيات على شكل حرف U، يحتوي كل منها على نقطة حد أدنى واحدة

في المقابل، الدالة التالية ليست محدّبة. لاحظ كيف أنّ المنطقة أعلاه الرسم البياني ليست مجموعة محدّبة:

منحنى على شكل W مع نقطتَي حد أدنى محليتين مختلفتين

الدالة المحدّبة تمامًا لها نقطة حد أدنى محلية واحدة فقط، وهي أيضًا نقطة الحد الأدنى العام. الدوال الكلاسيكية على شكل حرف U هي دوال محدّبة تمامًا. ومع ذلك، بعض الدوال المحدّبة (مثل الخطوط المستقيمة) ليست على شكل حرف U.

انقر على الرمز للاطّلاع على تفاصيل أكثر حول العمليات الحسابية.

الكثير من دوال الخسارة الشائعة، بما في ذلك ما يلي، هي دوال محدّبة:

فقدان _L2
الخسارة اللوغاريتمية
L₁ regularization
التسوية ₂

تضمن العديد من أشكال النزول التدريجي العثور على نقطة قريبة من الحد الأدنى لدالة محدّبة تمامًا. وبالمثل، فإنّ العديد من صيغ النزول التدرّجي العشوائي لديها احتمال كبير (وإن لم يكن مضمونًا) للعثور على نقطة قريبة من الحد الأدنى لدالة محدّبة تمامًا.

إنّ مجموع دالتين محدبتين (على سبيل المثال، دالة الخسارة L₂ + دالة التسوية L₁) هو دالة محدبة.

النماذج العميقة ليست دوال محدّبة أبدًا. من اللافت أنّ الخوارزميات المصمّمة لتحسين الدالّة المحدّبة تميل إلى العثور على حلول جيدة بشكل معقول على الشبكات العميقة على أي حال، على الرغم من أنّ هذه الحلول ليست مضمونة بأن تكون الحد الأدنى العام.

يمكنك الاطّلاع على التقارب والدوال المحدّبة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

تحسين الدالّة المحدّبة

عملية استخدام تقنيات رياضية، مثل النزول التدريجي، للعثور على الحد الأدنى لدالة محدّبة تركّز الكثير من الأبحاث في مجال تعلّم الآلة على صياغة مشاكل مختلفة على أنّها مشاكل تحسين الدالّة المحدّبة وعلى حلّ هذه المشاكل بشكل أكثر فعالية.

للاطّلاع على التفاصيل الكاملة، يُرجى الرجوع إلى كتاب Boyd and Vandenberghe، Convex Optimization.

مجموعة محدّبة

مجموعة فرعية من الفضاء الإقليدي بحيث يبقى الخط المرسوم بين أي نقطتين في المجموعة الفرعية ضمن المجموعة الفرعية تمامًا على سبيل المثال، الشكلان التاليان هما مجموعتان محدّبتان:

صورة توضيحية لمستطيل صورة توضيحية أخرى لشكل بيضاوي

في المقابل، الشكلان التاليان ليسا مجموعتين محدّبتين:

صورة توضيحية واحدة لرسم بياني دائري ينقصه جزء
رسم توضيحي آخر لمضلّع غير منتظم بشكل كبير

الالتفاف

في الرياضيات، وبشكل عام، هي مزيج من دالتين. في تعلُّم الآلة، يجمع الالتفاف بين فلتر الالتفاف ومصفوفة الإدخال من أجل تدريب الأوزان.

في سياق تعلُّم الآلة، يشير مصطلح "الالتفاف" غالبًا إلى طريقة مختصرة للإشارة إلى عملية الالتفاف أو طبقة الالتفاف.

بدون الالتفافات، يجب أن تتعلّم خوارزمية تعلُّم الآلة وزنًا منفصلاً لكل خلية في موتر كبير. على سبيل المثال، إذا تم تدريب خوارزمية تعلُّم آلي على صور بدقة 2000 × 2000، سيتم إجبارها على العثور على 4 ملايين وزن منفصل. بفضل الالتفافات، لا يحتاج خوارزمية تعلُّم الآلة إلا إلى العثور على أوزان لكل خلية في فلتر الالتفاف، ما يقلّل بشكل كبير من الذاكرة اللازمة لتدريب النموذج. عند تطبيق فلتر الالتفاف، يتم ببساطة تكراره على مستوى الخلايا بحيث يتم ضرب كل خلية في الفلتر.

فلتر التفافي

أحد العنصرَين في عملية التفاف (العنصر الآخر هو جزء من مصفوفة إدخال). الفلتر الالتفافي هو مصفوفة لها الترتيب نفسه مثل مصفوفة الإدخال، ولكن بشكل أصغر. على سبيل المثال، إذا كانت مصفوفة الإدخال 28x28، يمكن أن يكون الفلتر أي مصفوفة ثنائية الأبعاد أصغر من 28x28.

في معالجة الصور، يتم عادةً ضبط جميع الخلايا في فلتر التفاف على نمط ثابت من الآحاد والأصفار. في تعلُّم الآلة، يتم عادةً إدخال أرقام عشوائية إلى فلاتر الالتفاف، ثم تدريب الشبكة على القيم المثالية.

الطبقة الالتفافية

إحدى طبقات الشبكة العصبية العميقة التي يمرر فيها فلتر التفاف مصفوفة إدخال. على سبيل المثال، إليك فلتر التفاف بحجم 3x3:

مصفوفة 3x3 بالقيم التالية: [[0,1,0], [1,0,1], [0,1,0]]

تعرض الصورة المتحركة التالية طبقة التفافية تتألف من 9 عمليات التفافية تتضمّن مصفوفة الإدخال 5x5. لاحظ أنّ كل عملية التفافية تعمل على شريحة مختلفة من مصفوفة الإدخال بحجم 3×3. تتألف مصفوفة 3x3 الناتجة (على اليسار) من نتائج عمليات الالتفاف التسع:

صورة متحرّكة تعرض مصفوفتَين. المصفوفة الأولى هي مصفوفة 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
المصفوفة الثانية هي المصفوفة 3x3:
[[181,303,618], [115,338,605], [169,351,560]].
يتم احتساب المصفوفة الثانية من خلال تطبيق فلتر التفاف [0, 1, 0]، [1, 0, 1]، [0, 1, 0] على مجموعات فرعية مختلفة بحجم 3×3 من المصفوفة 5×5.

شبكة عصبونية التفافية

شبكة عصبونية يكون فيها طبقة واحدة على الأقل عبارة عن طبقة التفافية تتألف الشبكة العصبية الالتفافية النموذجية من مجموعة من الطبقات التالية:

الطبقات الالتفافية
طبقات التجميع
الطبقات الكثيفة

حققت الشبكات العصبونية الالتفافية نجاحًا كبيرًا في أنواع معيّنة من المشاكل، مثل التعرّف على الصور.

عملية الالتفاف

العملية الرياضية التالية المكوَّنة من خطوتَين:

الضرب حسب العناصر بين فلتر الالتفاف وشريحة من مصفوفة الإدخال (يحتوي جزء مصفوفة الإدخال على الترتيب والحجم نفسيهما كفلتر الالتفاف).
مجموع كل القيم في مصفوفة المنتجات الناتجة

على سبيل المثال، ضع في اعتبارك مصفوفة الإدخال التالية بحجم 5x5:

المصفوفة 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

لنفترض الآن فلتر التفافي 2x2 التالي:

المصفوفة 2x2: [[1, 0], [0, 1]]

تتضمّن كل عملية التفاف شريحة واحدة بحجم 2×2 من مصفوفة الإدخال. على سبيل المثال، لنفترض أنّنا نستخدم شريحة 2x2 في أعلى يسار مصفوفة الإدخال. وبالتالي، تبدو عملية الالتفاف على هذه الشريحة كما يلي:

تطبيق فلتر الالتفاف [[1, 0], [0, 1]] على القسم 2x2 في أعلى يمين مصفوفة الإدخال، وهو [[128,97], [35,22]].
يترك الفلتر التفافي القيمتين 128 و22 كما هما، ولكنّه يضبط القيمتين 97 و35 على صفر. وبالتالي، تؤدي عملية الالتفاف إلى القيمة 150 (128+22).

تتألف الطبقة الالتفافية من سلسلة من العمليات الالتفافية، كل منها يعمل على شريحة مختلفة من مصفوفة الإدخال.

COPA

#Metric

الاختصار الخاص بـ اختيار البدائل المعقولة

التكلفة

#Metric

مرادف لكلمة خسارة

التدريب المشترك

اتّباع أسلوب التعلّم شبه الموجّه مفيد بشكل خاص عندما تكون جميع الشروط التالية صحيحة:

نسبة الأمثلة غير المصنَّفة إلى الأمثلة المصنَّفة في مجموعة البيانات مرتفعة.
هذه مشكلة تصنيف (ثنائي أو متعدد الفئات).
تحتوي مجموعة البيانات على مجموعتَين مختلفتَين من الميزات التنبؤية المستقلة عن بعضها البعض والمتكاملة.

تعمل عملية التدريب المشترك بشكل أساسي على تضخيم الإشارات المستقلة وتحويلها إلى إشارة أقوى. على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف يصنّف السيارات المستعملة الفردية إلى جيدة أو سيئة. قد تركّز إحدى مجموعات الميزات التنبؤية على الخصائص المجمّعة، مثل سنة تصنيع السيارة وعلامتها التجارية وطرازها، وقد تركّز مجموعة أخرى من الميزات التنبؤية على سجلّ القيادة الخاص بالمالك السابق وسجلّ صيانة السيارة.

إنّ الورقة البحثية الأساسية حول التدريب المشترك هي الجمع بين البيانات المصنَّفة وغير المصنَّفة باستخدام التدريب المشترك من تأليف "بلوم" و"ميتشل".

العدالة في الحالات الافتراضية

#responsible

#Metric

مقياس الإنصاف الذي يتحقّق مما إذا كان نموذج التصنيف يعرض النتيجة نفسها لشخص ما كما يعرضها لشخص آخر مطابق للأول، باستثناء ما يتعلق بواحدة أو أكثر من السمات الحسّاسة. يُعدّ تقييم نموذج التصنيف من حيث الإنصاف المضاد للواقع إحدى الطرق للكشف عن المصادر المحتملة للانحياز في النموذج.

يمكنك الاطّلاع على أيّ مما يلي للحصول على مزيد من المعلومات:

الإنصاف: الإنصاف الافتراضي في دورة مكثّفة عن تعلّم الآلة.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

انحياز في التغطية

#responsible

اطّلِع على الانحياز في الاختيار.

crash blossom

جملة أو عبارة ذات معنى غامض تشكّل أخطاء "الازدهار المفاجئ" مشكلة كبيرة في فهم اللغة الطبيعية. على سبيل المثال، العنوان الروتين يعطّل بناء ناطحة سحاب هو مثال على جملة مبهمة لأنّ نموذج فهم اللغات الطبيعية قد يفسّر العنوان حرفيًا أو مجازيًا.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

لتوضيح هذا العنوان الغامض:

يمكن أن يشير مصطلح الروتين المعقّد إلى أيّ ممّا يلي:
- مادة لاصقة
- البيروقراطية المفرطة
يمكن أن يشير مصطلح في انتظار المراجعة إلى أيّ مما يلي:
- الدعم الهيكلي
- التأخيرات

ناقد

مرادف شبكة Q العميقة

الإنتروبيا المتقاطعة

#Metric

هي تعميم الخسارة اللوغاريتمية على مشاكل التصنيف المتعدد الفئات. يقيس الانتروبيا المتقاطعة الفرق بين توزيعَين للاحتمالات. يمكنك الاطّلاع أيضًا على مقياس الارتباك.

التحقّق المتقاطع

آلية لتقدير مدى قدرة النموذج على التعميم على البيانات الجديدة من خلال اختبار النموذج على مجموعة فرعية واحدة أو أكثر من البيانات غير المتداخلة المحجوبة من مجموعة التدريب

دالة التوزيع التراكمي (CDF)

#Metric

دالة تحدّد عدد المرّات التي تكون فيها العيّنات أقل من أو تساوي قيمة مستهدَفة. على سبيل المثال، لنفترض أنّ هناك توزيعًا طبيعيًا للقيم المستمرة. يخبرك التوزيع التراكمي بأنّ% 50 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي المتوسط، وأنّ% 84 تقريبًا من العيّنات يجب أن تكون أقل من أو تساوي الانحراف المعياري الواحد فوق المتوسط.

D

تحليل البيانات

فهم البيانات من خلال النظر في العيّنات والقياس والعرض المرئي يمكن أن يكون تحليل البيانات مفيدًا بشكل خاص عند تلقّي مجموعة بيانات لأول مرة، قبل إنشاء النموذج الأول. وهي ضرورية أيضًا لفهم التجارب وتصحيح الأخطاء في النظام.

توسيع نطاق البيانات

زيادة نطاق وعدد أمثلة التدريب بشكل مصطنع من خلال تحويل الأمثلة الحالية لإنشاء أمثلة إضافية على سبيل المثال، لنفترض أنّ الصور هي إحدى الميزات، ولكن مجموعة البيانات لا تحتوي على أمثلة كافية من الصور ليتعلّم النموذج الارتباطات المفيدة. من المفترض أن تضيف عددًا كافيًا من الصور المصنَّفة إلى مجموعة البيانات كي يتم تدريب النموذج بشكل صحيح. إذا لم يكن ذلك ممكنًا، يمكن أن تؤدي زيادة البيانات إلى تدوير كل صورة وتمديدها وعكسها لإنتاج العديد من الخيارات للصورة الأصلية، ما قد يؤدي إلى توفير بيانات مصنّفة كافية لإجراء تدريب ممتاز.

DataFrame

#fundamentals

نوع بيانات pandas شائع لتمثيل مجموعات البيانات في الذاكرة

يشبه DataFrame الجدول أو جدول البيانات. يحتوي كل عمود في DataFrame على اسم (عنوان)، ويتم تحديد كل صف برقم فريد.

يتم تنظيم كل عمود في إطار البيانات على شكل مصفوفة ثنائية الأبعاد، إلا أنّه يمكن تعيين نوع بيانات خاص لكل عمود.

يمكنك أيضًا الاطّلاع على صفحة مرجع pandas.DataFrame الرسمية.

التوازي على مستوى البيانات

طريقة لتوسيع نطاق التدريب أو الاستنتاج عن طريق تكرار نموذج كامل على أجهزة متعددة، ثم تمرير مجموعة فرعية من البيانات المدخلة إلى كل جهاز. يمكن أن تتيح ميزة "التوازي على مستوى البيانات" التدريب والاستدلال على أحجام دفعات كبيرة جدًا، ولكنها تتطلّب أن يكون النموذج صغيرًا بما يكفي ليتناسب مع جميع الأجهزة.

تؤدي موازاة البيانات عادةً إلى تسريع التدريب والاستنتاج.

يمكنك أيضًا الاطّلاع على التوازي بين النماذج.

Dataset API (tf.data)

#TensorFlow

واجهة برمجة تطبيقات TensorFlow عالية المستوى لقراءة البيانات وتحويلها إلى نموذج تتطلّبه خوارزمية تعلُّم الآلة يمثّل كائن tf.data.Dataset تسلسلاً من العناصر، يحتوي كل عنصر فيه على Tensor واحد أو أكثر. يتيح عنصر tf.data.Iterator الوصول إلى عناصر Dataset.

مجموعة البيانات

#fundamentals

مجموعة من البيانات الأولية، يتم تنظيمها عادةً (وليس حصريًا) بأحد التنسيقات التالية:

جدول بيانات
ملف بتنسيق CSV (قيم مفصولة بفواصل)

فاصل بين الفئات

الفاصل بين الفئات التي تعلّمها النموذج في مشاكل التصنيف الثنائي أو مشاكل التصنيف المتعدّد الفئات على سبيل المثال، في الصورة التالية التي تمثّل مشكلة تصنيف ثنائي، الحد الفاصل هو الحد بين الفئة البرتقالية والفئة الزرقاء:

حدود واضحة بين فئة وأخرى

غابة القرارات

#df

نموذج تم إنشاؤه من عدة أشجار قرارات تُجري "غابة القرارات" عملية توقّع من خلال تجميع التوقّعات التي تقدّمها أشجار القرارات. تشمل الأنواع الشائعة من غابات القرارات الغابات العشوائية وأشجار التدرّج المعزّز.

يمكنك الاطّلاع على قسم غابات القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

حدّ القرار

مرادف عتبة التصنيف

شجرة القرارات

#df

نموذج تعلّم موجَّه يتألف من مجموعة من الشروط والعُقد الطرفية المنظَّمة بشكل هرمي. على سبيل المثال، ما يلي هو شجرة قرارات:

شجرة قرارات تتألف من أربعة شروط مرتبة بشكل هرمي، وتؤدي إلى خمسة فروع نهائية.

برنامج فك الترميز

بشكل عام، أي نظام تعلُّم آلي يحوّل من تمثيل معالَج أو كثيف أو داخلي إلى تمثيل أكثر أولية أو تفرّقًا أو خارجية.

غالبًا ما تكون أدوات فك الترميز جزءًا من نموذج أكبر، حيث يتم دمجها بشكل متكرر مع أداة ترميز.

في مهام التسلسل إلى التسلسل، يبدأ برنامج الترميز بإدخال الحالة الداخلية التي أنشأها برنامج الترميز السابق لتوقُّع التسلسل التالي.

راجِع المحوّل للتعرّف على تعريف برنامج فك الترميز ضمن بنية المحوّل.

يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

نموذج عميق

#fundamentals

شبكة عصبية تحتوي على أكثر من طبقة مخفية

يُطلق على النموذج العميق أيضًا اسم شبكة عصبية عميقة.

يختلف عن النموذج الواسع.

شبكة عصبية عميقة

مرادف النموذج العميق

شبكة Q العميقة (DQN)

في تعلُّم Q، يتم استخدام شبكة عصبية عميقة لتوقُّع دالات Q.

Critic هو مرادف لـ Deep Q-Network.

التكافؤ بين الجنسين

#responsible

#Metric

مقياس العدالة الذي يتم استيفاؤه إذا كانت نتائج تصنيف النموذج لا تعتمد على سمة حساسة معيّنة.

على سبيل المثال، إذا كان كل من سكان ليليبوت وبروبدينغناغ يتقدّمون بطلبات إلى جامعة غلوبدوبدريب، يتم تحقيق التكافؤ الديموغرافي إذا كانت النسبة المئوية للطلاب المقبولين من ليليبوت هي نفسها النسبة المئوية للطلاب المقبولين من بروبدينغناغ، بغض النظر عمّا إذا كانت إحدى المجموعتين أكثر تأهيلاً من الأخرى في المتوسط.

يختلف هذا المقياس عن تساوي الاحتمالات وتساوي الفرص، اللذين يسمحان بأن تعتمد نتائج التصنيف بشكل إجمالي على السمات الحسّاسة، ولكنّهما لا يسمحان بأن تعتمد نتائج التصنيف لبعض التصنيفات المحدّدة للحقيقة الأساسية على السمات الحسّاسة. يمكنك الاطّلاع على "مكافحة التمييز من خلال تعلُّم الآلة الأذكى" للحصول على عرض مرئي يستكشف المفاضلة عند تحسين التكافؤ الديمغرافي.

يمكنك الاطّلاع على الإنصاف: التكافؤ الديمغرافي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

إزالة التشويش

أحد الأساليب الشائعة في التعلّم الذاتي الذي يتضمّن:

يتم إضافة تشويش بشكل مصطنع إلى مجموعة البيانات.
يحاول النموذج إزالة الضوضاء.

تتيح إزالة التشويش التعلّم من أمثلة غير مصنَّفة. تعمل مجموعة البيانات الأصلية كهدف أو تصنيف، وتعمل البيانات المشوّشة كمدخل.

تستخدم بعض نماذج اللغة المقنّعة أسلوب إزالة التشويش على النحو التالي:

تتم إضافة ضوضاء بشكل اصطناعي إلى جملة غير مصنّفة من خلال إخفاء بعض الرموز المميزة.
يحاول النموذج توقّع الرموز المميزة الأصلية.

خاصية كثيفة

#fundamentals

ميزة تكون معظم قيمها أو كلها غير صفرية، وعادةً ما تكون Tensor من قيم الفاصلة العائمة. على سبيل المثال، يكون Tensor التالي المكوّن من 10 عناصر كثيفًا لأنّ 9 من قيمه غير صفرية:

يختلف عن الميزة النادرة.

طبقة كثيفة

مرادف الطبقة المكتملة الاتصال

العمق

#fundamentals

مجموع ما يلي في شبكة عصبونية:

عدد الطبقات المخفية
عدد الطبقات النهائية، وهو عادةً 1
عدد أي طبقات تضمين

على سبيل المثال، تبلغ عمق الشبكة العصبية التي تتضمّن خمس طبقات مخفية وطبقة نهائية واحدة 6 طبقات.

يُرجى العِلم أنّ طبقة الإدخال لا تؤثر في العمق.

شبكة عصبونية التفافية قابلة للفصل حسب العمق (sepCNN)

بنية شبكة عصبية التفافية تستند إلى Inception، ولكن يتم فيها استبدال وحدات Inception بعمليات التفاف منفصلة حسب العمق. يُعرف أيضًا باسم Xception.

الالتفاف المنفصل حسب العمق (يُختصر أيضًا إلى الالتفاف المنفصل) هو عملية تفكيك عملية الالتفاف الثلاثية الأبعاد العادية إلى عمليتَي التفاف منفصلتَين أكثر فعالية من الناحية الحسابية: أولاً، عملية التفاف حسب العمق بعمق 1 (n ✕ n ✕ 1)، ثم عملية التفاف نقطية بطول وعرض 1 (1 ✕ 1 ✕ n).

لمزيد من المعلومات، يُرجى الاطّلاع على Xception: Deep Learning with Depthwise Separable Convolutions.

تصنيف مشتق

مرادف للتصنيف التقريبي

حتمية

نظام يعرض دائمًا الناتج نفسه عند إدخال البيانات نفسها. على سبيل المثال، دالة ReLU هي دالة قطعية لأنّ:

عندما يكون المدخل سالبًا، يكون الناتج دائمًا 0.
عندما يكون الإدخال غير سالب، يكون الناتج دائمًا مساويًا للإدخال.

في المقابل، تكون الدالة التي تعرض رقمًا عشوائيًا في كل مرة يتم استدعاؤها فيها غير قطعية.

وبشكل عام، يسهل اختبار الأنظمة المحدّدة أكثر من الأنظمة غير المحدّدة.

عادةً ما تكون النماذج اللغوية الكبيرة غير قطعية، أي أنّ استجابة النموذج اللغوي الكبير لطلب نفسه تختلف غالبًا.

جهاز

#TensorFlow

#GoogleCloud

مصطلح مثقل بالمعاني يتضمّن التعريفَين المحتملَين التاليَين:

فئة من الأجهزة التي يمكنها تشغيل جلسة TensorFlow، بما في ذلك وحدات المعالجة المركزية ووحدات معالجة الرسومات ووحدات معالجة الموتّرات
عند تدريب نموذج تعلُّم آلي على شرائح تسريع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، يكون هذا الجزء من النظام هو المسؤول عن معالجة الموتّرات وعمليات التضمين. يعمل الجهاز باستخدام شرائح تسريع. في المقابل، يعمل المضيف عادةً على وحدة معالجة مركزية.

الخصوصية التفاضلية

في تعلُّم الآلة، هو نهج لإخفاء الهوية يهدف إلى حماية أي بيانات حساسة (مثل المعلومات الشخصية لأحد الأفراد) مضمّنة في مجموعة التدريب الخاصة بأحد النماذج من التعرّض. يضمن هذا النهج ألا يتعلّم النموذج أو يتذكّر الكثير من المعلومات حول فرد معيّن. ويتم ذلك من خلال أخذ عيّنات وإضافة تشويش أثناء تدريب النموذج لإخفاء نقاط البيانات الفردية، ما يقلّل من خطر الكشف عن بيانات التدريب الحسّاسة.

يتم استخدام الخصوصية التفاضلية أيضًا خارج نطاق تعلُّم الآلة. على سبيل المثال، يستخدم علماء البيانات أحيانًا الخصوصية التفاضلية لحماية خصوصية الأفراد عند احتساب إحصاءات استخدام المنتجات لمختلف الفئات السكانية.

تخفيض عدد السمات

تقليل عدد السمات المستخدَمة لتمثيل ميزة معيّنة في متّجه الميزات، عادةً من خلال التحويل إلى متّجه تضمين

الأبعاد

مصطلح محمل بأكثر من معنى وله أي من التعريفات التالية:

عدد مستويات الإحداثيات في Tensor على سبيل المثال:
- يتضمّن العدد القياسي صفرًا من الأبعاد، مثل ["Hello"].
- يتضمّن المتّجه بُعدًا واحدًا، مثل [3, 5, 7, 11].
- تحتوي المصفوفة على سمتَين، مثل [[2, 4, 18], [5, 7, 14]]. يمكنك تحديد خلية معيّنة بشكل فريد في متّجه أحادي البُعد باستخدام إحداثي واحد، ولكنك تحتاج إلى إحداثيَين لتحديد خلية معيّنة بشكل فريد في مصفوفة ثنائية الأبعاد.
عدد الإدخالات في متّجه الميزات
عدد العناصر في طبقة التضمين

توجيه الطلبات بشكل مباشر

#generativeAI

مرادف للتلقين بلا أمثلة

خاصية محدّدة القيم

#fundamentals

الميزة التي تتضمّن مجموعة محدودة من القيم المحتملة على سبيل المثال، السمة التي لا يمكن أن تتضمّن قيمًا سوى حيوان أو نبات أو معدن هي سمة منفصلة (أو فئوية).

يختلف عن الخاصية المستمرة.

النموذج التمييزي

نموذج يتوقّع تصنيفات من مجموعة تتضمّن ميزة واحدة أو أكثر من الميزات بشكل أكثر رسمية، تحدّد النماذج التمييزية الاحتمالية الشرطية للناتج بالنظر إلى الميزات والأوزان، أي:

p(output | features, weights)

على سبيل المثال، النموذج الذي يتنبأ بما إذا كانت الرسالة الإلكترونية غير مرغوب فيها من الميزات والأوزان هو نموذج تمييزي.

إنّ الغالبية العظمى من نماذج التعلُّم الموجَّه، بما في ذلك نماذج التصنيف والانحدار، هي نماذج تمييزية.

يختلف عن النموذج التوليدي.

المُميِّز

نظام يحدّد ما إذا كانت الأمثلة حقيقية أو مزيفة.

أو، هو النظام الفرعي ضمن شبكة الخصومة التوليدية الذي يحدّد ما إذا كانت الأمثلة التي أنشأها المولّد حقيقية أو مزيفة.

يمكنك الاطّلاع على المميّز في دورة GAN التدريبية للحصول على مزيد من المعلومات.

التأثير غير المتكافئ

#responsible

اتّخاذ قرارات بشأن أشخاص تؤثّر بشكل غير متناسب في مجموعات فرعية مختلفة من السكان يشير ذلك عادةً إلى الحالات التي تؤدي فيها عملية اتخاذ القرارات المستندة إلى الخوارزميات إلى إلحاق الضرر ببعض المجموعات الفرعية أو تحقيق فائدة لها أكثر من غيرها.

على سبيل المثال، لنفترض أنّ خوارزمية تحدّد أهلية شخص من ليليبوت للحصول على قرض لشراء منزل صغير، ومن المرجّح أن تصنّفه على أنّه "غير مؤهّل" إذا كان عنوانه البريدي يتضمّن رمزًا بريديًا معيّنًا. إذا كان من المرجّح أن يكون لدى سكان ليليبوت الذين يستخدمون تنسيق Big-Endian عناوين بريدية تتضمّن هذا الرمز البريدي أكثر من سكان ليليبوت الذين يستخدمون تنسيق Little-Endian، قد تؤدي هذه الخوارزمية إلى تأثير متفاوت.

يختلف ذلك عن المعاملة غير المتكافئة، التي تركّز على التفاوتات الناتجة عندما تكون خصائص المجموعة الفرعية مدخلات صريحة في عملية اتخاذ القرار المستندة إلى الخوارزميات.

المعاملة غير المتكافئة

#responsible

إدخال السمات الحسّاسة الخاصة بالأشخاص في عملية اتخاذ القرار المستندة إلى الخوارزميات، ما يؤدي إلى معاملة المجموعات الفرعية المختلفة من الأشخاص بشكل مختلف

على سبيل المثال، لنفترض أنّ هناك خوارزمية تحدّد أهلية الأشخاص للحصول على قرض لشراء منزل صغير استنادًا إلى البيانات التي يقدّمونها في طلب القرض. إذا كانت الخوارزمية تستخدم انتماء أحد الأشخاص إلى Lilliputian كإدخال Big-Endian أو Little-Endian، فإنّها تمارس معاملة مختلفة على هذا الأساس.

يختلف ذلك عن التأثير غير المتكافئ الذي يركّز على التفاوتات في التأثيرات المجتمعية لقرارات الخوارزميات على المجموعات الفرعية، بغض النظر عمّا إذا كانت هذه المجموعات الفرعية مدخلات للنموذج.

تحذير: بما أنّ السمات الحسّاسة تكون مرتبطة دائمًا تقريبًا بميزات أخرى قد تتضمّنها البيانات، فإنّ إزالة معلومات السمات الحسّاسة بشكل صريح لا يضمن المساواة في المعاملة بين المجموعات الفرعية. على سبيل المثال، قد تؤدي إزالة السمات الديمغرافية الحسّاسة من مجموعة بيانات التدريب التي لا تزال تتضمّن الرمز البريدي كميزة إلى معالجة التفاوت في المعاملة بين المجموعات الفرعية، ولكن قد يظل هناك تأثير متفاوت على هذه المجموعات لأنّ الرمز البريدي قد يكون متغيرًا بديلًا لمعلومات ديمغرافية أخرى.

التقطير

#generativeAI

عملية تقليل حجم نموذج واحد (يُعرف باسم النموذج الأساسي) إلى نموذج أصغر (يُعرف باسم النموذج الثانوي) يحاكي توقّعات النموذج الأصلي بأكبر قدر ممكن من الدقة التقطير مفيد لأنّ النموذج الأصغر حجمًا يتمتّع بميزتَين رئيسيتَين مقارنةً بالنموذج الأكبر حجمًا (المعلّم):

وقت استنتاج أسرع
تقليل استخدام الذاكرة والطاقة

ومع ذلك، لا تكون توقعات الطالب جيدة عادةً مثل توقعات المعلّم.

تدرّب عملية التقطير نموذج الطالب على تقليل دالة الخسارة استنادًا إلى الفرق بين نتائج التوقعات التي يقدّمها نموذج الطالب ونموذج المعلّم.

قارِن بين التقطير والمصطلحات التالية:

الضبط الدقيق
التعلم المستند إلى الطلبات

لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة: الضبط الدقيق والتقطير وهندسة الطلبات في "دورة مكثّفة عن تعلّم الآلة".

distribution

تمثّل هذه السمة عدد المرات التي تظهر فيها القيم المختلفة للميزة أو التصنيف ونطاقها. يعرض التوزيع مدى احتمالية ظهور قيمة معيّنة.

تعرض الصورة التالية المدرّجات التكرارية لتوزيعَين مختلفَين:

على اليمين، يظهر توزيع قانون القوة للثروة مقابل عدد الأشخاص الذين يملكون هذه الثروة.
على اليسار، يظهر التوزيع الطبيعي للطول مقابل عدد الأشخاص الذين يبلغ طولهم هذا المقدار.

مدرّجان تكراريان يعرض أحد المدرّجات التكرارية توزيع قانون القوة، حيث يمثّل المحور السيني الثروة، ويمثّل المحور الصادي عدد الأشخاص الذين يملكون هذه الثروة. يمتلك معظم الأشخاص ثروة قليلة جدًا، بينما يمتلك عدد قليل منهم ثروة كبيرة. يعرض المدرّج التكراري الآخر توزيعًا طبيعيًا، حيث يمثّل المحور السيني الطول، ويمثّل المحور الصادي عدد الأشخاص الذين لديهم هذا الطول. تتجمّع معظم القيم بالقرب من المتوسط.

يمكن أن يساعدك فهم توزيع كل ميزة وتصنيف في تحديد كيفية تسوية القيم ورصد القيم الشاذة.

تشير عبارة خارج التوزيع إلى قيمة لا تظهر في مجموعة البيانات أو تظهر بشكل نادر جدًا. على سبيل المثال، ستُعتبر صورة لكوكب زحل خارج نطاق التوزيع لمجموعة بيانات تتألف من صور قطط.

التجميع من الأعلى إلى الأسفل

#clustering

اطّلِع على التجميع الهرمي.

تصغير نطاق العيّنات

مصطلح عام يمكن أن يشير إلى أحد المعنيَين التاليَين:

تقليل كمية المعلومات في ميزة بهدف تدريب نموذج بشكل أكثر فعالية على سبيل المثال، قبل تدريب نموذج للتعرّف على الصور، يتم تقليل دقة الصور العالية الدقة إلى تنسيق أقل دقة.
التدريب على نسبة منخفضة بشكل غير متناسب من أمثلة الفئة الممثَّلة بشكل مفرط، وذلك بهدف تحسين تدريب النموذج على الفئات الممثَّلة بشكل ناقص على سبيل المثال، في مجموعة بيانات غير متوازنة الفئات، تميل النماذج إلى التعرّف على الكثير من المعلومات حول الفئة الأكبر، ولكن ليس بالقدر الكافي حول الفئة الأصغر. يساعد تقليل معدّل أخذ العيّنات في تحقيق التوازن بين مقدار التدريب على الفئات الأكبر والأصغر.

لمزيد من المعلومات، راجِع مجموعات البيانات: مجموعات البيانات غير المتوازنة في "دورة مكثّفة عن تعلّم الآلة".

DQN

اختصار شبكة Q العميقة

تسوية الإسقاط

أحد أشكال التسوية المفيدة في تدريب الشبكات العصبونية. تزيل تسوية الإسقاط مجموعة عشوائية من عدد ثابت من الوحدات في إحدى طبقات الشبكة خلال خطوة واحدة من التدرّج. وكلما زاد عدد الوحدات التي تم تجاهلها، زادت قوة التسوية. وهذا يشبه تدريب الشبكة على محاكاة مجموعة موحدة كبيرة بشكل كبير من الشبكات الأصغر. للاطّلاع على التفاصيل الكاملة، يُرجى الرجوع إلى Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

ديناميكي

#fundamentals

شيء يتم بشكل متكرّر أو مستمر المصطلحان ديناميكي وعلى الإنترنت مترادفان في تعلُّم الآلة. في ما يلي الاستخدامات الشائعة للديناميكية والإنترنت في تعلّم الآلة:

النموذج المتغيّر (أو النموذج المباشر) هو نموذج تتم إعادة تدريبه بشكل متكرر أو مستمر.
التدريب الديناميكي (أو التدريب على الإنترنت) هو عملية تدريب متكررة أو مستمرة.
الاستدلال الديناميكي (أو الاستنتاج الحي) هو عملية إنشاء توقعات عند الطلب.

نموذج متغيّر

#fundamentals

نموذج يتم إعادة تدريبه بشكل متكرر (ربما بشكل مستمر). النموذج المتغيّر هو "متعلّم مدى الحياة" يتكيّف باستمرار مع البيانات المتطورة. يُعرف النموذج المتغيّر أيضًا باسم النموذج المباشر.

يختلف عن النموذج الثابت.

E

التنفيذ الفوري

#TensorFlow

بيئة برمجة TensorFlow يتم فيها تنفيذ العمليات على الفور. في المقابل، لا يتم تنفيذ العمليات التي يتم استدعاؤها في تنفيذ الرسم البياني إلا بعد تقييمها بشكل صريح. التنفيذ الفوري هو واجهة أمرية، تشبه إلى حد كبير الرموز البرمجية في معظم لغات البرمجة. وبشكل عام، يكون تصحيح أخطاء برامج التنفيذ الفوري أسهل بكثير من تصحيح أخطاء برامج التنفيذ البياني.

الإيقاف المبكر

#fundamentals

طريقة التسوية التي تتضمّن إنهاء التدريب قبل أن يتوقف معدّل انخفاض خسارة التدريب. في عملية الإيقاف المبكر، يتم إيقاف تدريب النموذج عمدًا عندما يبدأ معدل الخطأ في مجموعة بيانات التحقّق من الصحة في الارتفاع، أي عندما يتدهور أداء التعميم.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

قد يبدو الإيقاف المبكر غير منطقي. ففي النهاية، قد يبدو إيقاف تدريب النموذج بينما لا يزال معدل الخطأ في الانخفاض وكأنّك تطلب من طاهٍ التوقف عن الطهي قبل أن تنضج الحلوى بالكامل. ومع ذلك، يمكن أن يؤدي تدريب النموذج لفترة طويلة جدًا إلى المطابقة بشكل مفرط. أي أنّه في حال تدريب نموذج لفترة طويلة جدًا، قد يتلاءم النموذج مع بيانات التدريب بشكل كبير لدرجة أنّه لا يقدّم توقّعات جيدة بشأن الأمثلة الجديدة.

يختلف ذلك عن الخروج المبكر.

مسافة نقل التراب (EMD)

#Metric

مقياس للتشابه النسبي بين توزيعَين كلّما كانت مسافة نقل التراب أقل، تشابهت التوزيعات أكثر.

مسافة التعديل

#Metric

مقياس لمدى تشابه سلسلتَي نص مع بعضهما البعض. في التعلّم الآلي، تكون مسافة التعديل مفيدة للأسباب التالية:

يسهل احتساب مسافة التعديل.
يمكن أن تقارن مسافة التعديل بين سلسلتَين معروفتَين بأنّهما متشابهتَين.
يمكن أن تحدّد مسافة التعديل درجة تشابه السلاسل المختلفة مع سلسلة معيّنة.

تتوفّر عدة تعريفات لمسافة التعديل، ويستخدم كل منها عمليات مختلفة على السلاسل. يمكنك الاطّلاع على مسافة ليفنشتاين للحصول على مثال.

ترميز Einsum

تمثّل هذه السلسلة طريقة فعّالة لوصف كيفية دمج موترَين. يتم دمج الموترات عن طريق ضرب عناصر أحد الموترات في عناصر الموتر الآخر ثم جمع المنتجات. تستخدم طريقة كتابة Einsum رموزًا لتحديد محاور كل موتر، ويتم إعادة ترتيب هذه الرموز نفسها لتحديد شكل الموتر الناتج الجديد.

توفّر حزمة NumPy عملية تنفيذ شائعة للدالة Einsum.

طبقة التضمين

#fundamentals

طبقة مخفية خاصة يتم تدريبها على سمة فئوية ذات أبعاد عالية من أجل التعلّم تدريجيًا لمتجه تضمين ذي أبعاد أقل. تتيح طبقة التضمين للشبكة العصبونية التدريب بكفاءة أكبر بكثير من التدريب على الميزة الفئوية العالية الأبعاد فقط.

على سبيل المثال، يتيح Earth حاليًا حوالي 73,000 نوع من الأشجار. لنفترض أنّ نوع الشجرة هو سمة في نموذجك، وبالتالي تتضمّن طبقة الإدخال في نموذجك متجهًا ذا ترميز ساخن بطول 73,000 عنصر. على سبيل المثال، قد يتم تمثيل baobab على النحو التالي:

مصفوفة من 73,000 عنصر تحتوي العناصر الـ 6,232 الأولى على القيمة 0. يحتوي العنصر التالي على القيمة 1. تحتوي العناصر الـ 66,767 الأخيرة على القيمة صفر.

إنّ مصفوفة تضم 73,000 عنصر طويلة جدًا. إذا لم تُضِف طبقة تضمين إلى النموذج، سيستغرق التدريب وقتًا طويلاً جدًا بسبب ضرب 72,999 صفرًا. لنفترض أنّك اخترت أن تتألف طبقة التضمين من 12 سمة. وبالتالي، ستتعلّم طبقة التضمين تدريجيًا متجه تضمين جديدًا لكل نوع من أنواع الأشجار.

في حالات معيّنة، يكون التجزئة بديلاً معقولاً لطبقة التضمين.

يمكنك الاطّلاع على التضمينات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

مساحة التضمين

مساحة المتجهات ذات الأبعاد d التي يتم ربط الميزات من مساحة المتجهات ذات الأبعاد الأعلى بها يتم تدريب مساحة التضمين لالتقاط البنية التي تكون ذات مغزى للتطبيق المقصود.

الضرب النقطي بين تضمينَين هو مقياس لتشابههما.

متّجه التضمين

بشكل عام، هي مجموعة من الأرقام العشرية العائمة مأخوذة من أي طبقة مخفية تصف المدخلات إلى تلك الطبقة المخفية. في كثير من الأحيان، يكون متّجه التضمين عبارة عن مجموعة من الأرقام النقطية العائمة التي تم تدريبها في طبقة تضمين. على سبيل المثال، لنفترض أنّ طبقة تضمين يجب أن تتعرّف على متجه تضمين لكل نوع من أنواع الأشجار البالغ عددها 73,000 نوع على الأرض. ربما تكون المصفوفة التالية هي متّجه التضمين لشجرة باوباب:

مصفوفة تتضمّن 12 عنصرًا، يحتوي كل منها على رقم نقطة عائمة يتراوح بين 0.0 و1.0.

متجه التضمين ليس مجموعة من الأرقام العشوائية. تحدّد طبقة التضمين هذه القيم من خلال التدريب، بطريقة مشابهة للطريقة التي تتعلّم بها الشبكة العصبية الأوزان الأخرى أثناء التدريب. كل عنصر من عناصر المصفوفة هو تقييم لبعض خصائص أنواع الأشجار. أي عنصر يمثّل سمة أي نوع من الأشجار؟ ويصعب جدًا على البشر تحديد ذلك.

الجزء المميّز رياضيًا في متّجه التضمين هو أنّ العناصر المتشابهة تتضمّن مجموعات متشابهة من الأرقام النقطية العائمة. على سبيل المثال، تتضمّن أنواع الأشجار المتشابهة مجموعة أكثر تشابهًا من الأرقام العشرية مقارنةً بأنواع الأشجار غير المتشابهة. أشجار الخشب الأحمر وأشجار السكويا هي أنواع أشجار مرتبطة ببعضها، لذا سيكون لديها مجموعة أكثر تشابهًا من الأرقام ذات الفاصلة العائمة مقارنةً بأشجار الخشب الأحمر وأشجار جوز الهند. ستتغيّر الأرقام في متجه التضمين في كل مرة تعيد فيها تدريب النموذج، حتى إذا أعدت تدريبه باستخدام إدخال مطابق.

السلوك الناشئ

تشير إلى قدرة النموذج اللغوي الكبير على إنشاء ردود على الطلبات التي لم يتم تدريبه عليها بشكل صريح.

دالة التوزيع التراكمي التجريبية (eCDF أو EDF)

#Metric

دالة التوزيع التراكمي استنادًا إلى القياسات التجريبية من مجموعة بيانات حقيقية قيمة الدالة عند أي نقطة على طول المحور x هي جزء الملاحظات في مجموعة البيانات التي تكون أقل من القيمة المحددة أو تساويها.

تقليص المخاطر التجريبية (ERM)

اختيار الدالة التي تقلّل الخسارة إلى الحدّ الأدنى في مجموعة التدريب يختلف ذلك عن تقليص المخاطر البنيوية.

برنامج تشفير

بشكل عام، أي نظام تعلّم آلي يحوّل البيانات من تمثيل أولي أو متفرّق أو خارجي إلى تمثيل أكثر معالجة أو كثافة أو داخلية.

غالبًا ما تكون برامج الترميز جزءًا من نموذج أكبر، حيث يتم إقرانها بشكل متكرّر مع جهاز فك ترميز. تجمع بعض أدوات التحويل بين برامج الترميز وبرامج فك الترميز، بينما تستخدم أدوات التحويل الأخرى برنامج الترميز فقط أو برنامج فك الترميز فقط.

تستخدم بعض الأنظمة ناتج أداة الترميز كمدخل إلى شبكة تصنيف أو انحدار.

في مهام التسلسل إلى التسلسل، يأخذ برنامج الترميز تسلسلاً من الإدخالات ويعرض حالة داخلية (متجه). بعد ذلك، يستخدم برنامج الترميز هذه الحالة الداخلية للتنبؤ بالتسلسل التالي.

راجِع المحوّل للتعرّف على تعريف برنامج الترميز في بنية المحوّل.

لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلُّم الآلة".

نقاط النهاية

موقع جغرافي يمكن الوصول إليه عبر الشبكة (عادةً ما يكون عنوان URL) حيث يمكن الوصول إلى الخدمة.

مجموعة موحّدة

مجموعة من النماذج المدرَّبة بشكل مستقل، ويتم حساب متوسط أو تجميع التوقعات التي تقدّمها. في كثير من الحالات، ينتج عن المجموعة الموحدة توقعات أفضل من النموذج الفردي. على سبيل المثال، الغابة العشوائية هي مجموعة موحدة تم إنشاؤها من عدة أشجار قرارات. يُرجى العِلم أنّ بعض غابات القرارات ليست مجموعات.

لمزيد من المعلومات، يمكنك الاطّلاع على Random Forest في "دورة مكثّفة عن تعلّم الآلة".

الإنتروبيا

#df

#Metric

في نظرية المعلومات، القصور هو وصف لمدى عدم القدرة على التنبؤ بتوزيع الاحتمالات. ويمكن تعريف القصور أيضًا بأنه مقدار المعلومات التي يحتوي عليها كل مثال. يكون التوزيع بأعلى إنتروبيا ممكنة عندما تكون جميع قيم المتغيّر العشوائي متساوية الاحتمالية.

إنّ إنتروبيا مجموعة تتضمّن قيمتَين محتملتَين هما "0" و "1" (على سبيل المثال، التصنيفات في مسألة تصنيف ثنائي) تخضع للصيغة التالية:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:

H هو القصور.
p هي نسبة الأمثلة التي تكون فيها القيمة "1".
q هو نسبة الأمثلة التي تكون فيها القيمة "0". يُرجى العِلم أنّ q = (1 - p)
log هو بشكل عام log₂. في هذه الحالة، وحدة الإنتروبيا هي بت.

على سبيل المثال، لنفترض ما يلي:

تحتوي 100 عينة على القيمة "1"
تحتوي 300 عينة على القيمة "0"

وبالتالي، تكون قيمة القصور كما يلي:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 بت لكل مثال

المجموعة المتوازنة تمامًا (على سبيل المثال، 200 من القيمة "0" و200 من القيمة "1") ستكون قيمة الإنتروبيا فيها 1.0 بت لكل مثال. كلما أصبحت المجموعة أكثر عدم توازن، اقترب القصور فيها من 0.0.

في أشجار القرارات، يساعد الانتروبيا في صياغة مكسب المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرارات التصنيف.

مقارنة الإنتروبيا مع:

مقياس جيني للتفاوت
دالة الخسارة الإنتروبيا المتقاطعة

يُطلق على القصور غالبًا اسم قصور شانون.

لمزيد من المعلومات، راجِع Exact splitter for binary classification with numerical features في دورة "أشجار القرار العشوائية".

بيئة

في التعلّم المعزّز، يشير مصطلح "البيئة" إلى العالم الذي يتضمّن الوكيل ويسمح له بمراقبة حالته. على سبيل المثال، يمكن أن يكون العالم الممثَّل لعبة مثل الشطرنج أو عالمًا ماديًا مثل متاهة. عندما يتّخذ العميل إجراءً في البيئة، تنتقل البيئة بين الحالات.

تحديد المصدر في البيئة

البيانات الأولية التي يتم إرسالها إلى الوكيل خلال مرحلة الملاحظات في الحلقة المستندة إلى الوكيل على سبيل المثال، قد يشمل تحديد المصدر البيئي لأحد الوكلاء سجلّات الأخطاء أو رمز HTML لصفحة ويب تم إنشاؤها حديثًا.

حلقة

في التعلّم التعزيزي، كل محاولة متكررة يقوم بها الوكيل لتعلّم بيئة.

الذاكرة العرضية

في النماذج اللغوية الكبيرة، يتم اكتساب المعلومات بعد التدريب. في المقابل، تشير الذاكرة الدلالية إلى المعلومات التي يتم تعلّمها أثناء التدريب. يمكن أن تكون الذاكرة العرضية مؤقتة (على سبيل المثال، تستمر فقط خلال جلسة المحادثة الحالية مع برنامج الدردشة الآلي) أو أكثر ديمومة (على سبيل المثال، تستمر في كل جلسة يستدعيها المستخدم).

اطّلِع أيضًا على الذاكرة الإجرائية.

حقبة

#fundamentals

هي عملية تدريب كاملة على مجموعة التدريب بحيث تتم معالجة كل مثال مرة واحدة.

تمثّل الحقبة N/حجم الدفعة تكرارات التدريب، حيث N هو إجمالي عدد الأمثلة.

على سبيل المثال، لنفترض ما يلي:

تتألف مجموعة البيانات من 1,000 مثال.
يبلغ حجم الدفعة 50 مثالاً.

لذلك، تتطلّب الحقبة الواحدة 20 تكرارًا:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

سياسة إبسيلون الجشعة

في التعلّم المعزّز، السياسة هي سياسة تتبع إما سياسة عشوائية باحتمالية إبسيلون أو سياسة جشعة في الحالات الأخرى. على سبيل المثال، إذا كانت قيمة إبسيلون 0.9، ستتّبع السياسة سياسة عشوائية بنسبة% 90 من الوقت وسياسة جشعة بنسبة% 10 من الوقت.

على مدار حلقات متتالية، تقلّل الخوارزمية قيمة إبسيلون من أجل الانتقال من اتّباع سياسة عشوائية إلى اتّباع سياسة جشعة. من خلال تغيير السياسة، يستكشف الوكيل البيئة أولاً بشكل عشوائي ثم يستغل نتائج الاستكشاف العشوائي بشكل نهم.

تكافؤ الفرص

#responsible

#Metric

مقياس الإنصاف لتقييم ما إذا كان النموذج يتوقّع النتيجة المرغوبة بشكل جيد وبالمقدار نفسه لجميع قيم السمة الحسّاسة بعبارة أخرى، إذا كانت النتيجة المرغوبة لنموذج هي الفئة الإيجابية، سيكون الهدف هو أن يكون معدّل الإيجابية الحقيقية هو نفسه لجميع المجموعات.

يرتبط تكافؤ الفرص بتكافؤ الاحتمالات، الذي يتطلّب أن يكون كلّ من معدلات الموجب الصائب ومعدلات الموجب الخاطئ متطابقًا لجميع المجموعات.

لنفترض أنّ جامعة Glubbdubdrib تقبل طلابًا من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبت منهجًا دراسيًا قويًا في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدينغناغ أي دروس في الرياضيات، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص للتصنيف المفضّل "مقبول" فيما يتعلق بالجنسية (ليليبوتية أو بروبدينغناغية) إذا كان من المرجّح أن يتم قبول الطلاب المؤهّلين بالتساوي بغض النظر عما إذا كانوا ليليبوتايين أو بروبدينغناغيين.

على سبيل المثال، لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات التحاق بجامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:

الجدول 1. مقدّمو الطلبات من ليليبيوت (90% منهم مؤهّلون)

	مؤهَّل	غير معرَّف
تم قبول الطلب	45	3
تم الرفض	45	7
المجموع	90	10
نسبة الطلاب المؤهّلين المقبولين: 45/90 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 7/10 =%70 النسبة الإجمالية للطلاب المقبولين من Lilliputian: (45+3)/100 = %48

الجدول 2. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):

	مؤهَّل	غير معرَّف
تم قبول الطلب	5	9
تم الرفض	5	81
المجموع	10	90
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 81/90 =%90 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+9)/100 = %14

تستوفي الأمثلة السابقة شرط تكافؤ الفرص لقبول الطلاب المؤهّلين لأنّ كلّاً من سكان ليليبوت وبروبدينغناغ المؤهّلين لديهم فرصة بنسبة% 50 للقبول.

على الرغم من استيفاء شرط تكافؤ الفرص، لم يتم استيفاء مقياسَي العدالة التاليَين:

التكافؤ الديمغرافي: يتم قبول سكان ليليبوت وبروبدينغناغ في الجامعة بمعدلات مختلفة، إذ يتم قبول% 48 من الطلاب من ليليبوت، ولكن يتم قبول% 14 فقط من الطلاب من بروبدينغناغ.
تكافؤ الفرص: على الرغم من أنّ الطلاب المؤهَّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للقبول، لا يتم استيفاء الشرط الإضافي الذي ينص على أنّ الطلاب غير المؤهَّلين من ليليبوت وبروبدينغناغ لديهم فرصة متساوية للرفض. يبلغ معدّل الرفض لدى Lilliputians غير المؤهّلين% 70، بينما يبلغ معدّل الرفض لدى Brobdingnagians غير المؤهّلين% 90.

يمكنك الاطّلاع على الإنصاف: تكافؤ الفرص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

المعدّلات المتساوية

#responsible

#Metric

مقياس عدالة لتقييم ما إذا كان النموذج يتنبأ بالنتائج بشكل جيد وبدرجة متساوية لجميع قيم السمة الحسّاسة، وذلك فيما يتعلق بكل من الفئة الموجبة والفئة السالبة، وليس فئة واحدة فقط. بعبارة أخرى، يجب أن يكون كل من معدّل الموجب الصائب ومعدّل السالب الخاطئ متساويَين بالنسبة إلى جميع المجموعات.

ترتبط تكافؤ الفرص بتكافؤ الفرص، الذي يركّز فقط على معدّلات الخطأ لفئة واحدة (موجبة أو سالبة).

على سبيل المثال، لنفترض أنّ جامعة Glubbdubdrib تقبل الطلاب من Lilliput وBrobdingnag في برنامج رياضيات صارم. تقدّم المدارس الثانوية في ليليبوث مناهج دراسية قوية في الرياضيات، ومعظم الطلاب مؤهّلون للالتحاق بالبرنامج الجامعي. لا تقدّم المدارس الثانوية في بروبدينغناغ دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، يكون عدد الطلاب المؤهّلين أقل بكثير. يتم استيفاء شرط تكافؤ الفرص إذا كان احتمال قبول المتقدّمين المؤهّلين في البرنامج متساويًا بغض النظر عن حجمهم، وإذا كان احتمال رفض المتقدّمين غير المؤهّلين متساويًا بغض النظر عن حجمهم.

لنفترض أنّ 100 شخص من ليليبوت و100 شخص من بروبدينغناغ يقدّمون طلبات إلى جامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:

الجدول 3. مقدّمو الطلبات من ليليبيوت (90% منهم مؤهّلون)

	مؤهَّل	غير معرَّف
تم قبول الطلب	45	2
تم الرفض	45	8
المجموع	90	10
نسبة الطلاب المؤهّلين المقبولين: 45/90 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 8/10 =%80 النسبة الإجمالية للطلاب المقبولين من Lilliputian: (45+2)/100 = %47

الجدول 4. مقدّمو الطلبات من Brobdingnagian (10% مؤهَّلون):

	مؤهَّل	غير معرَّف
تم قبول الطلب	5	18
تم الرفض	5	72
المجموع	10	90
نسبة الطلاب المؤهّلين المقبولين: 5/10 =%50 نسبة الطلاب غير المؤهّلين المرفوضين: 72/90 =%80 النسبة الإجمالية للطلاب المقبولين من Brobdingnagian: (5+18)/100 = %23

يتم استيفاء شرط تكافؤ الفرص لأنّ الطلاب المؤهّلين من ليليبوت وبروبدينغناغ لديهم فرصة قبول بنسبة% 50، بينما تبلغ نسبة رفض الطلاب غير المؤهّلين من ليليبوت وبروبدينغناغ% 80.

يتم تعريف تكافؤ الفرص رسميًا في "تكافؤ الفرص في التعلّم الخاضع للإشراف" على النحو التالي: "يتوافق المتنبئ Ŷ مع تكافؤ الفرص فيما يتعلق بالسمة المحمية A والنتيجة Y إذا كان Ŷ وA مستقلين، بشرط Y".

ملاحظة: قارِن بين مقياس تكافؤ الفرص الأكثر مرونة ومقياس تكافؤ الاحتمالات.

Estimator

#TensorFlow

واجهة برمجة تطبيقات TensorFlow متوقّفة نهائيًا استخدِم tf.keras بدلاً من Estimators.

التقييمات

#generativeAI

#Metric

تُستخدَم في المقام الأول كاختصار لتقييمات النماذج اللغوية الكبيرة. بشكل عام، التقييمات هي اختصار لأي شكل من أشكال التقييم.

التقييم

#generativeAI

#Metric

تشير هذه العملية إلى قياس جودة نموذج أو مقارنة نماذج مختلفة ببعضها.

لتقييم نموذج تعلُّم الآلة المُوجّه، يتم عادةً مقارنته بمجموعة التحقّق ومجموعة الاختبار. يتضمّن تقييم النماذج اللغوية الكبيرة عادةً تقييمات أوسع للجودة والأمان.

وكيل التقييم

#agent

هو وكيل يقيّم نتائج وكيل آخر قبل أن تصبح نهائية. يمكنك تخيّل وكيل يصنّع منتجًا ووكيل آخر منفصل، وهو وكيل التقييم، يختبر هذا المنتج قبل طرحه.

الناقد هو مرادف لوكيل التقييم.

مطابقة تامة

#Metric

مقياس شامل لا يسمح إلا بنتيجتَين: إمّا أن تتطابق نتيجة النموذج مع الحقيقة الأساسية أو النص المرجعي تمامًا، أو لا تتطابق. على سبيل المثال، إذا كانت البيانات الصحيحة هي برتقالي، فإنّ مخرجات النموذج الوحيدة التي تحقّق المطابقة التامة هي برتقالي.

يمكن أن تقيّم المطابقة التامة أيضًا النماذج التي يكون ناتجها تسلسلاً (قائمة مرتبة من العناصر). بشكل عام، تتطلّب المطابقة التامة أن تتطابق القائمة المرتبة التي تم إنشاؤها مع البيانات الأساسية، أي يجب أن يكون ترتيب كل عنصر في القائمتين هو نفسه. ومع ذلك، إذا كانت البيانات الأساسية تتضمّن تسلسلات صحيحة متعدّدة، تتطلّب المطابقة التامة أن يطابق الناتج الذي يقدّمه النموذج أحد التسلسلات الصحيحة.

على سبيل المثال

#fundamentals

قيم أحد صفوف الميزات وربما تصنيف تنقسم الأمثلة في التعلُّم الموجَّه إلى فئتَين عامتَين:

يتألف المثال المصنّف من ميزة واحدة أو أكثر وتصنيف. يتم استخدام الأمثلة المصنَّفة أثناء التدريب.
يتألف المثال غير المصنّف من ميزة واحدة أو أكثر بدون تصنيف. يتم استخدام الأمثلة غير المصنّفة أثناء الاستدلال.

على سبيل المثال، لنفترض أنّك تدرب نموذجًا لتحديد تأثير الظروف الجوية على درجات اختبارات الطلاب. في ما يلي ثلاثة أمثلة مصنّفة:

الميزات			التصنيف
درجة الحرارة	الرطوبة	الضغط	نتيجة الاختبار
15	47	998	جيدة
19	34	1020	ممتاز
18	92	1012	سيئة

في ما يلي ثلاثة أمثلة غير مصنّفة:

درجة الحرارة	الرطوبة	الضغط
12	62	1014
21	47	1017
19	41	1021

عادةً ما يكون صف مجموعة البيانات هو المصدر الأولي للمثال. أي أنّ المثال يتألف عادةً من مجموعة فرعية من الأعمدة في مجموعة البيانات. بالإضافة إلى ذلك، يمكن أن تتضمّن الميزات في أحد الأمثلة أيضًا ميزات اصطناعية، مثل تقاطع الميزات.

يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

إعادة تجربة

في التعلّم المعزّز، DQN هي تقنية تُستخدَم لتقليل الارتباطات الزمنية في بيانات التدريب. يخزّن الوكيل عمليات نقل الحالة في مخزن مؤقت لإعادة التشغيل، ثم يأخذ عيّنات من عمليات النقل من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات التدريب.

انحياز المُختبِر

#responsible

اطّلِع على التحيز التأكيدي.

مشكلة التدرّج المتفجّر

هي ميل التدرجات في الشبكات العصبية العميقة (خاصةً الشبكات العصبية المتكررة) إلى أن تصبح شديدة الانحدار (عالية) بشكل مفاجئ. غالبًا ما تؤدي التدرّجات الحادة إلى تعديلات كبيرة جدًا على الأوزان الخاصة بكل عقدة في شبكة عصبونية عميقة.

تصبح النماذج التي تعاني من مشكلة التدرّج المتفجّر صعبة التدريب أو مستحيلة التدريب. يمكن أن يساعد اقتطاع التدرج في الحدّ من هذه المشكلة.

قارِن ذلك بمشكلة تدرّج التلاشي.

Extreme Summarization (xsum)

#Metric

مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تلخيص مستند واحد. يتألف كل إدخال في مجموعة البيانات مما يلي:

مستند من تأليف هيئة الإذاعة البريطانية (BBC)
ملخّص للمستند في جملة واحدة

لمزيد من التفاصيل، يُرجى الاطّلاع على لا أريد التفاصيل، أريد الملخّص فقط! شبكات عصبونية التفافية تراعي الموضوعات لتلخيص النصوص بشكل مكثّف

F

F₁

#Metric

مقياس تصنيف ثنائي "مجمّع" يعتمد على كل من مقياس صحة النموذج ومقياس المراجعة. في ما يلي الصيغة:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

انقر على الرمز للاطّلاع على أمثلة.

لنفترض أنّ قيمتَي مقياس صحة النموذج ومقياس المراجعة هما:

الدقة = 0.6
recall = 0.4

يمكنك احتساب F₁ على النحو التالي:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

عندما يكون مقياس صحة النموذج ومقياس المراجعة متشابهَين إلى حدّ كبير (كما في المثال السابق)، يكون مقياس F₁ قريبًا من المتوسط. عندما يختلف مقياسا صحة النموذج ومقياس المراجعة بشكل كبير، يكون مقياس F₁ أقرب إلى القيمة الأقل. على سبيل المثال:

precision = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

الواقعية

#generativeAI

في عالم تعلُّم الآلة، تشير هذه السمة إلى نموذج يستند في نتائجه إلى بيانات واقعية. الحقيقة هي مفهوم وليست مقياسًا. على سبيل المثال، لنفترض أنّك أرسلت الطلب التالي إلى نموذج لغوي كبير:

ما هي الصيغة الكيميائية لملح الطعام؟

سيجيب النموذج الذي يحسّن صحة المعلومات على النحو التالي:

NaCl

قد يكون من المغري افتراض أنّ جميع النماذج يجب أن تستند إلى الوقائع. ومع ذلك، يجب أن تؤدي بعض الطلبات، مثل ما يلي، إلى تحسين الإبداع بدلاً من الدقة في نموذج الذكاء الاصطناعي التوليدي.

أريد سماع قصيدة مضحكة عن رائد فضاء ويسروع.

من غير المرجّح أن تكون الأبيات الناتجة مستندة إلى الواقع.

التباين مع الاستناد إلى الحقائق

قيد الإنصاف

#responsible

تطبيق قيد على خوارزمية لضمان استيفاء تعريف واحد أو أكثر من تعريفات العدالة تشمل أمثلة قيود العدالة ما يلي:

المعالجة اللاحقة لناتج النموذج
تعديل دالة الخسارة لتضمين عقوبة على انتهاك مقياس العدالة
إضافة قيد رياضي مباشرةً إلى مسألة تحسين

مقياس العدالة

#responsible

#Metric

تعريف رياضي "للإنصاف" يمكن قياسه تشمل بعض مقاييس العدالة الشائعة الاستخدام ما يلي:

تكافؤ الفرص
تعادل الأداء المستند إلى التوقّعات
العدالة القائمة على التفكير في الاحتمالات
التكافؤ الديمغرافي

تتداخل العديد من مقاييس العدالة مع بعضها البعض، راجِع عدم توافق مقاييس العدالة.

سالب خاطئ

#fundamentals

#Metric

مثال يخطئ فيه النموذج في التنبؤ بالفئة السلبية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكنّ هذه الرسالة الإلكترونية هي في الواقع رسالة غير مرغوب فيها.

معدّل السالب الخاطئ

#Metric

يشير ذلك المصطلح إلى نسبة الأمثلة الإيجابية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة السلبية. تحتسب الصيغة التالية معدّل النتائج السلبية الخاطئة:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

موجب خاطئ

#fundamentals

#Metric

مثال يخطئ فيه النموذج في التنبؤ بالفئة الإيجابية. على سبيل المثال، يتوقّع النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها (الفئة الإيجابية)، ولكن في الواقع، هذه الرسالة ليست رسالة غير مرغوب فيها.

يمكنك الاطّلاع على الحدود ومصفوفة الالتباس في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

معدّل الموجب الخاطئ

#fundamentals

#Metric

يشير ذلك المصطلح إلى نسبة الأمثلة السلبية الفعلية التي توقّع النموذج بشكل خاطئ أنّها تنتمي إلى الفئة الإيجابية. تحتسب الصيغة التالية معدّل الإيجابية الخاطئة:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

معدل الموجب الخاطئ هو المحور السيني في منحنى خاصية تشغيل جهاز الاستقبال.

يمكنك الاطّلاع على التصنيف: منحنى ROC ومساحة AUC في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

التدهور السريع

#generativeAI

التدريب هو أسلوب لتحسين أداء نماذج اللغات الكبيرة. يتضمّن التدهور السريع خفض معدّل التعلّم بسرعة أثناء التدريب. تساعد هذه الاستراتيجية في منع النموذج من المطابقة بشكل مفرط مع بيانات التدريب، كما تحسّن التعميم.

ميزة

#fundamentals

متغيّر إدخال في نموذج تعلُّم الآلة يتألف المثال من ميزة واحدة أو أكثر. على سبيل المثال، لنفترض أنّك تدرب نموذجًا لتحديد تأثير الظروف الجوية على درجات الطلاب في الاختبارات. يعرض الجدول التالي ثلاثة أمثلة، يحتوي كل منها على ثلاث سمات وتصنيف واحد:

الميزات			التصنيف
درجة الحرارة	الرطوبة	الضغط	نتيجة الاختبار
15	47	998	92
19	34	1020	84
18	92	1012	87

التباين مع التصنيف

يمكنك الاطّلاع على التعلّم بإشراف في دورة "مقدمة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

مضروب مجموعات الخصائص

#fundamentals

الخاصية الاصطناعية هي خاصية تم إنشاؤها من خلال "دمج" الخصائص الفئوية أو المقسَّمة إلى مجموعات.

على سبيل المثال، لنفترض أنّ لديك نموذجًا "لتوقّع الحالة المزاجية" يمثّل درجة الحرارة في إحدى الفئات الأربع التالية:

freezing
chilly
temperate
warm

وتمثّل سرعة الرياح في إحدى الفئات الثلاث التالية:

still
light
windy

بدون عمليات دمج الميزات، يتم تدريب النموذج الخطي بشكل مستقل على كل من المجموعات السبع المختلفة السابقة. لذا، يتم تدريب النموذج على، على سبيل المثال، freezing بشكل مستقل عن التدريب على، على سبيل المثال، windy.

يمكنك بدلاً من ذلك إنشاء مضروب مجموعات الخصائص لدرجة الحرارة وسرعة الرياح. ستتضمّن هذه الميزة الاصطناعية 12 قيمة محتملة على النحو التالي:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

بفضل عمليات الربط بين الميزات، يمكن للنموذج التعرّف على الاختلافات في الحالة المزاجية بين يوم freezing-windy ويوم freezing-still.

إذا أنشأت خاصية مصطنعة من خاصيتَين تحتوي كل منهما على الكثير من التصنيفات المختلفة، سيحتوي مضروب مجموعات الخصائص الناتج على عدد كبير من المجموعات المحتملة. على سبيل المثال، إذا كانت إحدى الميزات تتضمّن 1,000 مجموعة والأخرى تتضمّن 2,000 مجموعة، ستحتوي مضروب مجموعات الخصائص الناتجة على 2,000,000 مجموعة.

رياضيًا، يكون التقاطع ناتجًا ديكارتيًا.

يتم استخدام عمليات ضرب الميزات بشكل أساسي مع النماذج الخطية، ونادرًا ما يتم استخدامها مع الشبكات العصبية.

لمزيد من المعلومات، راجِع البيانات الفئوية: التقاطعات بين الميزات في "دورة مكثّفة عن تعلّم الآلة".

هندسة الخصائص

#fundamentals

#TensorFlow

عملية تتضمّن الخطوات التالية:

تحديد الميزات التي قد تكون مفيدة في تدريب نموذج
تحويل البيانات الأولية من مجموعة البيانات إلى إصدارات فعّالة من هذه الميزات

على سبيل المثال، قد ترى أنّ temperature قد تكون ميزة مفيدة. بعد ذلك، يمكنك تجربة التجميع في فئات لتحسين ما يمكن أن يتعلّمه النموذج من نطاقات temperature المختلفة.

يُطلق على عملية تصميم الميزات أحيانًا اسم استخراج الميزات أو تحويل البيانات إلى ميزات.

انقر على الرمز للاطّلاع على ملاحظات إضافية حول TensorFlow.

في TensorFlow، تعني هندسة الخصائص غالبًا تحويل إدخالات ملف السجلّ الأولي إلى Protocol Buffers tf.Example. يمكنك الاطّلاع أيضًا على tf.Transform.

راجِع البيانات الرقمية: كيف يستوعب النموذج البيانات باستخدام متجهات الميزات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

استخراج الميزات

مصطلح محمل بشكل زائد له أحد التعريفين التاليين:

استرداد تمثيلات الميزات الوسيطة التي تم حسابها بواسطة نموذج غير خاضع للإشراف أو نموذج مُدرَّب مسبقًا (على سبيل المثال، قيم الطبقة المخفية في شبكة عصبية) لاستخدامها كإدخال في نموذج آخر
مرادف هندسة الخصائص

أهمية الميزات

#df

#Metric

مرادف أهمية المتغيرات

مجموعة الخصائص

#fundamentals

مجموعة الميزات التي يتم تدريب نموذج تعلُّم الآلة عليها على سبيل المثال، قد تتألف مجموعة بسيطة من الخصائص لنموذج يتنبأ بأسعار المساكن من الرمز البريدي ومساحة العقار وحالته.

مواصفات الخصائص

#TensorFlow

توضّح هذه السمة المعلومات المطلوبة لاستخراج بيانات السمات من tf.Example. بما أنّ tf.Example protocol buffer هي مجرد حاوية للبيانات، عليك تحديد ما يلي:

البيانات المُراد استخراجها (أي مفاتيح الميزات)
نوع البيانات (على سبيل المثال، عدد عشري أو عدد صحيح)
الطول (ثابت أو متغير)

متّجه الميزات

#fundamentals

مصفوفة قيم الميزة التي تتضمّن مثالاً. يتم إدخال متجه الميزات أثناء التدريب وأثناء الاستدلال. على سبيل المثال، قد يكون متجه الميزات لنموذج يتضمّن ميزتَين منفصلتَين كما يلي:

[0.92, 0.56]

أربع طبقات: الطبقة الأولى وطبقتان مخفيتان والطبقة النهائية
تحتوي الطبقة الأولى على عقدتَين، إحداهما تحتوي على القيمة 0.92 والأخرى على القيمة 0.56.

يقدّم كل مثال قيمًا مختلفة لمتّجه الميزات، لذا يمكن أن يكون متّجه الميزات للمثال التالي على النحو التالي:

[0.73, 0.49]

تحدّد هندسة الخصائص كيفية تمثيل الميزات في متجه الميزات. على سبيل المثال، يمكن تمثيل ميزة فئوية ثنائية ذات خمس قيم محتملة باستخدام الترميز الأحادي. في هذه الحالة، سيتألف جزء متجه الميزات الخاص بمثال معيّن من أربعة أصفار و1.0 واحد في الموضع الثالث، كما يلي:

[0.0, 0.0, 1.0, 0.0, 0.0]

كمثال آخر، لنفترض أنّ نموذجك يتكوّن من ثلاث ميزات:

سمة فئوية ثنائية ذات خمس قيم محتملة يتم تمثيلها باستخدام الترميز الساخن، على سبيل المثال: [0.0, 1.0, 0.0, 0.0, 0.0]
ميزة فئوية ثنائية أخرى تتضمّن ثلاث قيم محتملة ممثّلة باستخدام الترميز الأحادي، مثل: [0.0, 0.0, 1.0]
سمة نقطة عائمة، على سبيل المثال: 8.3

في هذه الحالة، سيتم تمثيل متجه الميزات لكل مثال بتسع قيم. بالنظر إلى القيم النموذجية في القائمة السابقة، سيكون متجه الميزات على النحو التالي:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

featurization

عملية استخراج الميزات من مصدر إدخال، مثل مستند أو فيديو، وربط هذه الميزات بمتجه الميزات

يستخدم بعض خبراء تعلُّم الآلة مصطلح "تحديد الميزات" كمرادف لمصطلحَي هندسة الخصائص أو استخراج الميزات.

التعلّم الموحّد

أسلوب موزّع لتعلُّم الآلة يدرّب نماذج تعلُّم الآلة باستخدام أمثلة لا مركزية مخزّنة على أجهزة مثل الهواتف الذكية. في التعلّم الموحّد، تنزّل مجموعة فرعية من الأجهزة النموذج الحالي من خادم تنسيق مركزي. تستخدم الأجهزة الأمثلة المخزّنة عليها لإجراء تحسينات على النموذج. بعد ذلك، تحمّل الأجهزة التحسينات التي تم إدخالها على النموذج (ولكن ليس أمثلة التدريب) إلى الخادم المنسّق، حيث يتم تجميعها مع التعديلات الأخرى لإنشاء نموذج عالمي محسّن. بعد التجميع، لن تعود هناك حاجة إلى تحديثات النموذج التي تم احتسابها بواسطة الأجهزة، ويمكن تجاهلها.

وبما أنّه لا يتم تحميل أمثلة التدريب أبدًا، يتبع التعلّم الموحّد مبادئ الخصوصية المتعلّقة بجمع البيانات المركّز وتضييق نطاق جمع البيانات.

يمكنك الاطّلاع على القصة المصوّرة حول التعلّم الموحّد (نعم، قصة مصوّرة) للحصول على مزيد من التفاصيل.

الملاحظات

#agent

مرحلة في حلقة الوكيل يقيّم فيها الوكيل الإجراء الذي تم اتخاذه خلال مرحلة التنفيذ. على سبيل المثال، إذا أرسل الوكيل طلب بيانات من واجهة برمجة التطبيقات خلال مرحلة التنفيذ، قد تحدّد مرحلة الملاحظات ما إذا كانت الاستجابة من واجهة برمجة التطبيقات ناجحة.

حلقة الملاحظات

#fundamentals

في تعلُّم الآلة، هي حالة تؤثّر فيها توقّعات النموذج في بيانات التدريب الخاصة بالنموذج نفسه أو بنموذج آخر. على سبيل المثال، سيؤثر نموذج يقترح أفلامًا في الأفلام التي يشاهدها المستخدمون، ما سيؤثر بدوره في نماذج اقتراح الأفلام اللاحقة.

لمزيد من المعلومات، يمكنك الاطّلاع على أنظمة تعلُّم الآلة في مرحلة الإنتاج: أسئلة يجب طرحها في "دورة مكثّفة عن تعلّم الآلة".

شبكة عصبونية ذات تغذية أمامية (FFN)

شبكة عصبية بدون اتصالات دورية أو متكررة على سبيل المثال، تُعد الشبكات العصبية العميقة التقليدية شبكات عصبية ذات تغذية أمامية. يختلف هذا النوع عن الشبكات العصبية المتكررة التي تكون دورية.

التعلّم ببضع فُرَص

أسلوب تعلُّم آلة يُستخدم غالبًا لتصنيف العناصر، وهو مصمّم لتدريب نماذج تصنيف فعّالة من عدد صغير فقط من أمثلة التدريب.

يمكنك أيضًا الاطّلاع على التعلُّم بفرصة واحدة والتعلُّم بدون أمثلة.

التلقين ببضعة أمثلة

#generativeAI

طلب يحتوي على أكثر من مثال واحد (بضعة أمثلة) يوضّح كيفية استجابة النموذج اللغوي الكبير. على سبيل المثال، يتضمّن الطلب الطويل التالي مثالَين يوضّحان للنموذج اللغوي الكبير كيفية الإجابة عن طلب بحث.

أجزاء من طلب واحد	ملاحظات
`ما هي العملة الرسمية للبلد المحدّد؟`	السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة
`فرنسا: يورو`	إليك مثالاً.
`المملكة المتحدة: الجنيه الإسترليني`	مثال آخر.
`الهند:`	طلب البحث الفعلي

يؤدي التلقين ببضعة أمثلة بشكل عام إلى نتائج أفضل من التلقين بلا أمثلة و التلقين بمثال واحد. ومع ذلك، يتطلّب التلقين ببضعة أمثلة تلقينًا أطول.

التلقين ببضعة أمثلة هو شكل من أشكال التعلّم ببضع فُرَص يتم تطبيقه على التعلّم المستند إلى الطلبات.

يمكنك الاطّلاع على هندسة المطالبات في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

كمنجة

مكتبة إعدادات تستند إلى لغة Python وتضبط قيم الدوال والفئات بدون رموز برمجية أو بنية أساسية متداخلة. في حالة Pax وغيرها من قواعد بيانات تعلُّم الآلة، تمثّل هذه الدوال والفئات النماذج والتدريب والمَعلمات الفائقة.

يفترض Fiddle أنّ قواعد بيانات تعلُّم الآلة عادةً ما تكون مقسّمة إلى:

رمز المكتبة الذي يحدّد الطبقات وأدوات التحسين
رمز "الربط" لمجموعة البيانات، والذي يستدعي المكتبات ويربط كل شيء ببعضه

تسجّل أداة Fiddle بنية استدعاء رمز الربط في شكل غير مقيَّم وقابل للتعديل.

الضبط الدقيق

#generativeAI

عملية تدريب ثانية خاصة بمهمة معيّنة يتم إجراؤها على نموذج مدرَّب مسبقًا لتحسين مَعلماته بما يتناسب مع حالة استخدام محدّدة. على سبيل المثال، يكون تسلسل التدريب الكامل لبعض النماذج اللغوية الكبيرة على النحو التالي:

التدريب المُسبَق: يتم تدريب نموذج لغوي كبير على مجموعة بيانات عامة واسعة النطاق، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
الضبط الدقيق: تدريب النموذج المُدرَّب مسبقًا على تنفيذ مَهمّة محدّدة، مثل الردّ على الاستفسارات الطبية يتضمّن الضبط الدقيق عادةً مئات أو آلاف الأمثلة التي تركّز على المهمة المحدّدة.

كمثال آخر، يكون تسلسل التدريب الكامل لنموذج صور كبير على النحو التالي:

التدريب المُسبَق: درِّب نموذجًا كبيرًا للصور على مجموعة بيانات عامة ضخمة من الصور، مثل جميع الصور في Wikimedia Commons.
الضبط الدقيق: تدريب النموذج المدرَّب مسبقًا لتنفيذ مهمة محدّدة، مثل إنشاء صور لحيتان الأوركا

يمكن أن يتضمّن الضبط الدقيق أي مجموعة من الاستراتيجيات التالية:

تعديل جميع المعلَمات الحالية للنموذج المدرَّب مسبقًا يُطلق على هذه العملية أحيانًا اسم الضبط الدقيق الكامل.
تعديل بعض المَعلمات الحالية للنموذج المدرَّب مسبقًا (عادةً، الطبقات الأقرب إلى الطبقة النهائية)، مع إبقاء المَعلمات الحالية الأخرى بدون تغيير (عادةً، الطبقات الأقرب إلى الطبقة الأولى) اطّلِع على الضبط الفعّال من حيث المَعلمات.
إضافة المزيد من الطبقات، عادةً ما تكون فوق الطبقات الحالية الأقرب إلى طبقة الإخراج

الضبط الدقيق هو أحد أشكال التعلّم القائم على نقل المهام. وبالتالي، قد تستخدم عملية الضبط الدقيق دالة خسارة أو نوع نموذج مختلفَين عن تلك المستخدَمة في تدريب النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج كبير للصور مدرَّب مسبقًا بدقة لإنتاج نموذج انحدار يعرض عدد الطيور في صورة إدخال.

قارِن بين الضبط الدقيق والمصطلحات التالية:

التقطير
التعلم المستند إلى الطلبات

يمكنك الاطّلاع على الضبط الدقيق في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

نموذج الفلاش

#generativeAI

مجموعة من نماذج Gemini الصغيرة نسبيًا والمحسَّنة للعمل بسرعة مع وقت الاستجابة منخفض. تم تصميم نماذج Flash لمجموعة كبيرة من التطبيقات التي تتطلّب ردودًا سريعة ومعدّل أعلى لنقل البيانات.

كتّان

مكتبة مفتوحة المصدر وعالية الأداء للتعلّم العميق، تم إنشاؤها استنادًا إلى JAX توفّر Flax دوال للتدريب للشبكات العصبية، بالإضافة إلى طرق لتقييم أدائها.

Flaxformer

Transformer هي مكتبة مفتوحة المصدر تستند إلى Flax، وهي مصمَّمة في الأساس لمعالجة اللغة الطبيعية والأبحاث المتعدّدة الوسائط.

نسيان البوابة

جزء من خلية الذاكرة الطويلة الأمد القصيرة الأمد ينظّم تدفّق المعلومات عبر الخلية. تحافظ بوابات النسيان على السياق من خلال تحديد المعلومات التي سيتم تجاهلها من حالة الخلية.

النموذج الأساسي

#generativeAI

#Metric

نموذج مدرَّب مسبقًا كبير جدًا تم تدريبه على مجموعة تدريب هائلة ومتنوّعة. يمكن للنموذج الأساسي تنفيذ ما يلي:

الاستجابة بشكل جيد لمجموعة كبيرة من الطلبات
يمكن استخدامه كنموذج أساسي لإجراء المزيد من عمليات الضبط الدقيق أو التخصيص الأخرى.

بعبارة أخرى، يكون النموذج الأساسي فعّالاً جدًا بشكل عام، ولكن يمكن تخصيصه بشكل أكبر ليصبح أكثر فائدةً في مهمة معيّنة.

نسبة النجاحات

#generativeAI

#Metric

مقياس لتقييم النص الذي تم إنشاؤه بواسطة نموذج تعلُّم آلي نسبة النجاح هي عدد مخرجات النصوص التي تم إنشاؤها "بنجاح" مقسومًا على إجمالي عدد مخرجات النصوص التي تم إنشاؤها. على سبيل المثال، إذا أنشأ نموذج لغوي كبير 10 مقاطع برمجية، ونجح خمسة منها، سيكون معدّل النجاح 50%.

على الرغم من أنّ مقياس "نسبة النجاح" مفيد بشكل عام في الإحصاء، إلا أنّه في تعلُّم الآلة، يكون هذا المقياس مفيدًا بشكل أساسي لقياس المهام التي يمكن التحقّق منها، مثل إنشاء الرموز البرمجية أو حلّ المسائل الرياضية.

دالّة softmax الكاملة

مرادف softmax

يختلف عن تحليل العينات المُحتملة.

لمزيد من المعلومات، يمكنك الاطّلاع على الشبكات العصبية: التصنيف المتعدد الفئات في "دورة مكثّفة عن تعلّم الآلة".

طبقة مكتملة الاتصال

طبقة مخفية يكون فيها كل عقدة مرتبطة بكل عقدة في الطبقة المخفية اللاحقة

تُعرف الطبقة المكتملة الاتصال أيضًا باسم الطبقة الكثيفة.

تحويل الدالة

دالة تأخذ دالة كمدخل وتعرض دالة معدَّلة كمخرج. تستخدم JAX عمليات تحويل الدوال.

G

GAN

اختصار شبكة الخصومة التوليدية

Gemini

#generativeAI

منظومة متكاملة تضم أحدث تقنيات الذكاء الاصطناعي من Google تشمل عناصر هذا النظام البيئي ما يلي:

نماذج Gemini مختلفة
هي واجهة محادثة تفاعلية مع أحد نماذج Gemini. يكتب المستخدمون طلبات، ويردّ Gemini على هذه الطلبات.
واجهات Gemini API المختلفة
منتجات مختلفة للأنشطة التجارية تستند إلى نماذج Gemini، مثل Gemini في Google Cloud

نماذج Gemini

#generativeAI

#agent

نماذج متعددة الوسائط المتطورة من Google المستندة إلى Transformer تم تصميم نماذج Gemini خصيصًا للاندماج مع الوكلاء.

يمكن للمستخدمين التفاعل مع نماذج Gemini بطرق متنوعة، بما في ذلك من خلال واجهة حوار تفاعلية ومن خلال حِزم تطوير البرامج (SDK).

Gemma

#generativeAI

مجموعة من النماذج المفتوحة والخفيفة تم إنشاؤها بالاستناد إلى الأبحاث والتكنولوجيا نفسها التي استُخدمَت لإنشاء نماذج Gemini تتوفّر عدة نماذج مختلفة من Gemma، يقدّم كل منها ميزات مختلفة، مثل الرؤية والتعليمات البرمجية واتّباع التعليمات. لمزيد من التفاصيل، يُرجى الاطّلاع على Gemma.

الذكاء الاصطناعي التوليدي أو genAI

#generativeAI

اختصار الذكاء الاصطناعي التوليدي

التعميم

#fundamentals

تشير إلى قدرة النموذج على تقديم توقّعات صحيحة بشأن بيانات جديدة لم يسبق له رؤيتها. النموذج الذي يمكنه التعميم هو عكس النموذج الذي يفرط في التوافق.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

يتم تدريب النموذج على الأمثلة الواردة في مجموعة التدريب. نتيجةً لذلك، يتعرّف النموذج على الخصائص المميزة للبيانات في مجموعة التدريب. تطرح التعميمات أساسًا السؤال عمّا إذا كان بإمكان النموذج تقديم تنبؤات جيدة بشأن أمثلة غير واردة في مجموعة التدريب.

لتشجيع التعميم، تساعد التسوية النموذج في التدريب بشكل أقل دقة على خصائص البيانات في مجموعة التدريب.

يمكنك الاطّلاع على التعميم في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

منحنى التعميم

#fundamentals

رسم بياني لكل من فقدان التدريب وفقدان التحقّق كدالة لعدد التكرارات

يمكن أن يساعدك منحنى التعميم في رصد حالات التطابق الزائد المحتملة. على سبيل المثال، يشير منحنى التعميم التالي إلى زيادة الملاءمة لأنّ خسارة التحقّق تصبح في النهاية أعلى بكثير من خسارة التدريب.

رسم بياني ديكارتي يتم فيه تصنيف المحور ص على أنّه الخسارة والمحور س على أنّه التكرارات. يظهر رسمان بيانيان. يعرض أحد الرسومات البيانية
فقدان التدريب، بينما يعرض الآخر فقدان التحقّق.
يبدأ الرسمان البيانيان بشكل مشابه، ولكن ينخفض معدل الخطأ في التدريب في النهاية إلى مستوى أقل بكثير من معدل الخطأ في التحقّق.

يمكنك الاطّلاع على التعميم في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

نموذج خطّي معمَّم

تعميم نماذج الانحدار بالمربعات الصغرى، التي تستند إلى الضوضاء الغاوسية، إلى أنواع أخرى من النماذج التي تستند إلى أنواع أخرى من الضوضاء، مثل ضوضاء بواسون أو الضوضاء الفئوية تشمل أمثلة النماذج الخطية المعمَّمة ما يلي:

الانحدار اللوجستي
الانحدار المتعدد الفئات
انحدار التربيعات الأقل

يمكن العثور على مَعلمات النموذج الخطي المعمَّم من خلال التحسين المحدّب.

تتضمّن النماذج الخطية المعمَّمة الخصائص التالية:

إنّ متوسط التوقّع لنموذج انحدار التربيعات الأقل الأمثل يساوي متوسط الوسم في بيانات التدريب.
إنّ متوسط الاحتمالية التي يتوقّعها نموذج الانحدار اللوجستي الأمثل يساوي متوسط التصنيف في بيانات التدريب.

تكون قدرة النموذج الخطي المعمَّم محدودة بميزاته. على عكس النموذج العميق، لا يمكن للنموذج الخطي المعمَّم "تعلُّم ميزات جديدة".

النص الذي يتم إنشاؤه

#generativeAI

بشكل عام، يشير إلى النص الذي ينتجه نموذج تعلُّم الآلة. عند تقييم النماذج اللغوية الكبيرة، تقارن بعض المقاييس النص الذي تم إنشاؤه بالنص المرجعي. على سبيل المثال، لنفترض أنّك تحاول تحديد مدى فعالية نموذج تعلّم آلي في الترجمة من الفرنسية إلى الهولندية. في هذه الحالة:

النص الذي تم إنشاؤه هو الترجمة الهولندية التي يعرضها نموذج تعلُّم الآلة.
النص المرجعي هو الترجمة الهولندية التي يقدّمها مترجم بشري (أو برنامج).

يُرجى العِلم أنّ بعض استراتيجيات التقييم لا تتضمّن نصًا مرجعيًا.

شبكة تنافسية توليدية (GAN)

نظام لإنشاء بيانات جديدة، حيث ينشئ مولّد البيانات، بينما يحدّد المميّز ما إذا كانت البيانات التي تم إنشاؤها صالحة أم غير صالحة.

يمكنك الاطّلاع على دورة شبكات الخصومة التوليدية للحصول على مزيد من المعلومات.

الوكلاء التوليديّون (المحاكاة)

#agent

برامج آلية مزوّدة بشخصيات وذكريات وروتينات فريدة تحاكي السلوك البشري الواقعي.

يمكنك الاطّلاع على Generative Agents: Interactive Simulacra of Human Behavior للحصول على التفاصيل.

الذكاء الاصطناعي التوليدي

#generativeAI

مجال تحويلي ناشئ بدون تعريف رسمي مع ذلك، يتّفق معظم الخبراء على أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنشاء محتوى يتضمّن كل ما يلي:

معقّد
متماسك
الصورة الأصلية

تشمل أمثلة الذكاء الاصطناعي التوليدي ما يلي:

النماذج اللغوية الكبيرة، التي يمكنها إنشاء نصوص أصلية معقّدة والإجابة عن الأسئلة
نموذج إنشاء الصور الذي يمكنه إنتاج صور فريدة
نماذج إنشاء المحتوى الصوتي والموسيقي، والتي يمكنها تأليف موسيقى أصلية أو إنشاء محتوى صوتي واقعي
نماذج إنشاء الفيديوهات التي يمكنها إنشاء فيديوهات أصلية

يمكن لبعض التقنيات السابقة، بما في ذلك شبكات الذاكرة الطويلة المدى (LSTM) والشبكات العصبية المتكررة (RNN)، إنشاء محتوى أصلي ومتماسك أيضًا. يرى بعض الخبراء أنّ هذه التكنولوجيات السابقة هي ذكاء اصطناعي توليدي، بينما يرى آخرون أنّ الذكاء الاصطناعي التوليدي الحقيقي يتطلّب نواتج أكثر تعقيدًا من تلك التي يمكن أن تنتجها التكنولوجيات السابقة.

يختلف ذلك عن تعلُّم الآلة التوقّعي.

نموذج توليدي

من الناحية العملية، النموذج الذي ينفّذ أيًا مما يلي:

إنشاء أمثلة جديدة من مجموعة بيانات التدريب على سبيل المثال، يمكن لنموذج توليدي إنشاء قصائد بعد تدريبه على مجموعة بيانات من القصائد. يندرج الجزء المنشئ من الشبكة التنافسية التوليدية ضمن هذه الفئة.
تحدّد هذه السمة احتمال أن يكون المثال الجديد واردًا من مجموعة التدريب أو تم إنشاؤه من الآلية نفسها التي تم إنشاء مجموعة التدريب منها. على سبيل المثال، بعد التدريب على مجموعة بيانات تتألف من جمل باللغة الإنجليزية، يمكن لنموذج توليدي تحديد احتمال أن يكون الإدخال الجديد جملة صالحة باللغة الإنجليزية.

يمكن للنموذج التوليدي نظريًا التمييز بين توزيع الأمثلة أو الميزات المعينة في مجموعة البيانات. والمقصود:

p(examples)

نماذج التعلّم غير الموجَّه هي نماذج توليدية.

يختلف عن النماذج التمييزية.

منشئ

النظام الفرعي ضمن شبكة معادية توليدية الذي ينشئ أمثلة جديدة.

يختلف عن النموذج التمييزي.

gini impurity

#df

#Metric

مقياس مشابه لإنتروبيا تستخدم أدوات التقسيم قيمًا مشتقة من عدم المساواة في جيني أو الإنتروبيا لإنشاء شروط لتصنيف أشجار القرارات. يتم استنتاج تحصيل المعلومات من قصور المعلومات. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المستمد من عدم نقاء جيني، ولكن هذا المقياس غير المسمى لا يقل أهمية عن اكتساب المعلومات.

يُطلق على عدم نقاء جيني أيضًا اسم مؤشر جيني أو ببساطة جيني.

انقر على الرمز للاطّلاع على التفاصيل الرياضية حول عدم نقاء جيني.

مقياس عدم المساواة في جيني هو احتمال تصنيف قطعة جديدة من البيانات بشكل خاطئ مأخوذة من التوزيع نفسه. يتم احتساب معامل جيني لمجموعة تتضمّن قيمتَين محتملتَين هما "0" و "1" (على سبيل المثال، التصنيفات في مسألة تصنيف ثنائي) باستخدام الصيغة التالية:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

where:

I هي مقياس عدم المساواة في جيني.
p هي نسبة الأمثلة التي تكون فيها القيمة "1".
q هي نسبة الأمثلة التي تتضمّن القيمة "0". يُرجى العِلم أنّ q = 1-p

على سبيل المثال، لنفترض مجموعة البيانات التالية:

تحتوي 100 تصنيف (0.25 من مجموعة البيانات) على القيمة "1"
تحتوي 300 تصنيف (0.75 من مجموعة البيانات) على القيمة "0"

وبالتالي، فإنّ معامل جيني هو:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

نتيجةً لذلك، سيكون هناك احتمال بنسبة% 37.5 بأن يتم تصنيف تصنيف عشوائي من مجموعة البيانات نفسها بشكل خاطئ، واحتمال بنسبة% 62.5 بأن يتم تصنيفه بشكل صحيح.

سيحتوي التصنيف المتوازن تمامًا (على سبيل المثال، 200 من القيمة "0" و200 من القيمة "1") على مؤشر عدم المساواة في جيني يبلغ 0.5. سيكون التصنيف غير المتوازن للغاية ذا مؤشر جيني غير نقي قريب من 0.0.

مجموعة البيانات الذهبية

مجموعة من البيانات التي تمّت إدارتها يدويًا وتتضمّن الحقيقة الأساسية يمكن للفرق استخدام مجموعة بيانات ذهبية واحدة أو أكثر لتقييم جودة النموذج.

تتضمّن بعض مجموعات البيانات الذهبية نطاقات فرعية مختلفة من البيانات الأساسية. على سبيل المثال، قد تتضمّن مجموعة البيانات الذهبية لتصنيف الصور معلومات عن ظروف الإضاءة ودقة الصورة.

الردّ الذهبي

#generativeAI

ردّ معروف بأنّه جيد. على سبيل المثال، إذا كان لديك الطلب التالي:

2 + 2

من المفترض أن تكون الإجابة المثالية هي:

4

انقر هنا للاطّلاع على ملاحظات حول "الردّ الذهبي" والنص المرجعي.

تقارن بعض مقاييس التقييم، مثل ROUGE، النص المرجعي بالنص الذي تم إنشاؤه بواسطة النموذج. عندما تكون هناك إجابة صحيحة واحدة فقط عن طلب، يتم عادةً استخدام الرد الذهبي كنص مرجعي.

لا تتضمّن بعض الطلبات إجابة صحيحة واحدة. على سبيل المثال، من المرجّح أن يكون للطلب لخِّص هذا المستند العديد من الإجابات الصحيحة. بالنسبة إلى هذه الطلبات، يكون النص المرجعي غير عملي غالبًا لأنّ النموذج يمكنه إنشاء مجموعة واسعة جدًا من الملخّصات المحتملة. ومع ذلك، قد يكون الرد الذهبي مفيدًا في هذه الحالة. على سبيل المثال، يمكن أن تساعد الاستجابة الذهبية التي تتضمّن ملخّصًا جيدًا للمستند في تدريب مقيّم آلي على رصد أنماط الملخّصات الجيدة للمستندات.

Google AI Studio

أداة من Google توفّر واجهة سهلة الاستخدام لتجربة التطبيقات وإنشائها باستخدام النماذج اللغوية الكبيرة من Google. يمكنك الاطّلاع على الصفحة الرئيسية في Google AI Studio لمعرفة التفاصيل.

GPT (Generative Pre-trained Transformer)

#generativeAI

هي مجموعة من النماذج اللغوية الكبيرة المستندة إلى Transformer والتي طوّرتها شركة OpenAI.

يمكن تطبيق أشكال GPT على وسائط متعددة، بما في ذلك:

إنشاء الصور (مثل ImageGPT)
تحويل النصوص إلى صور (على سبيل المثال، DALL-E)

متدرج

متّجه المشتقات الجزئية بالنسبة إلى جميع المتغيرات المستقلة في تعلُّم الآلة، التدرّج هو متّجه المشتقات الجزئية لدالة النموذج. يشير التدرّج إلى اتجاه الانحدار الأكثر حدة.

تجميع التدرّج

الانتشار العكسي هو أسلوب يعدّل المَعلمات مرة واحدة فقط لكل حقبة بدلاً من مرة واحدة لكل تكرار. بعد معالجة كل دفعة مصغّرة، يؤدي تجميع التدرّجات إلى تعديل إجمالي التدرّجات الجاري فقط. بعد ذلك، وبعد معالجة آخر دفعة صغيرة في الحقبة، يحدّث النظام أخيرًا المَعلمات استنادًا إلى مجموع كل تغييرات التدرّج.

تكون عملية تجميع التدرّجات مفيدة عندما يكون حجم الدفعة كبيرًا جدًا مقارنةً بكمية الذاكرة المتاحة للتدريب. عندما تكون الذاكرة مشكلة، يكون الميل الطبيعي هو تقليل حجم الدفعة. ومع ذلك، فإنّ تقليل حجم الدفعة في الانتشار الرجعي العادي يزيد عدد تعديلات المَعلمات. تتيح ميزة "تجميع التدرّجات" للنموذج تجنُّب مشاكل الذاكرة مع الحفاظ على كفاءة التدريب.

أشجار القرارات المعزّزة بالتدرّج (GBT)

#df

هو نوع من غابة القرارات حيث:

تعتمد التدريب على التعزيز الاشتقاقي.
النموذج الضعيف هو شجرة قرارات.

يمكنك الاطّلاع على أشجار القرارات المعزّزة بالتدرّج في دورة "غابات القرارات" التدريبية للحصول على مزيد من المعلومات.

التعزيز المتدرج

#df

خوارزمية تدريب يتم فيها تدريب نماذج ضعيفة لتحسين جودة نموذج قوي بشكل متكرر (تقليل الخسارة). على سبيل المثال، قد يكون النموذج الضعيف نموذجًا خطيًا أو نموذج شجرة قرار صغيرًا. يصبح النموذج القوي مجموع كل النماذج الضعيفة التي تم تدريبها سابقًا.

في أبسط أشكال تعزيز التدرّج، يتم في كل تكرار تدريب نموذج ضعيف لتوقُّع تدرّج الفقدان للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي عن طريق طرح التدرّج المتوقّع، على غرار نزول تدرّجي.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

where:

‫$F_{0}$ هو نموذج البداية القوية.
$F_{i+1}$ هو النموذج القوي التالي.
$F_{i}$ هو النموذج القوي الحالي.
$\xi$ هي قيمة بين 0.0 و1.0 تُسمى الانكماش، وهي مشابهة لمعدل التعلّم في خوارزمية انحدار التدرّج.
‫$f_{i}$ هو النموذج الضعيف الذي تم تدريبه لتوقّع تدرّج الخسارة في ‫$F_{i}$.

تتضمّن الأشكال الحديثة من تعزيز التدرّج أيضًا المشتقة الثانية (مصفوفة هيسيان) للدالة الخسارة في حساباتها.

تُستخدَم أشجار القرارات عادةً كنماذج ضعيفة في تعزيز التدرّج. اطّلِع على أشجار القرارات المعزّزة بالتدرّج.

اقتصاص التدرّج

آلية شائعة الاستخدام للحدّ من مشكلة تزايد التدرّج بشكل كبير من خلال الحدّ بشكل مصطنع (القص) من القيمة القصوى للتدرّجات عند استخدام النزول بالتدرّج من أجل تدريب نموذج.

النزول المتدرّج

#fundamentals

أسلوب رياضي لتقليل الخسارة. تعدّل عملية "نزول تدرّجي" الأوزان والانحيازات بشكل متكرّر، وتعثر تدريجيًا على أفضل تركيبة لتقليل الخسارة.

تسبق طريقة "النزول التدرّجي" تقنية تعلُّم الآلة بفترة طويلة جدًا.

يمكنك الاطّلاع على الانحدار الخطي: نزول التدرّج في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.

رسم بياني

#TensorFlow

في TensorFlow، هي مواصفات عملية حسابية. تمثّل العُقد في الرسم البياني العمليات. الحواف موجّهة وتمثّل تمرير نتيجة عملية (Tensor) كمعامل إلى عملية أخرى. استخدِم TensorBoard لتصوُّر رسم بياني.

تنفيذ الرسم البياني

#TensorFlow

بيئة برمجة TensorFlow ينشئ فيها البرنامج رسمًا بيانيًا أولاً، ثم ينفّذ كل هذا الرسم البياني أو جزءًا منه. تنفيذ الرسم البياني هو وضع التنفيذ التلقائي في TensorFlow 1.x.

يختلف ذلك عن التنفيذ الفوري.

سياسة طمّاعة

في التعلّم المعزّز، السياسة هي التي تختار دائمًا الإجراء الذي يحقّق أعلى عائد متوقّع.

الاستناد إلى الحقائق

هي خاصية في نموذج يستند ناتجها إلى مواد مصدرية معيّنة. على سبيل المثال، لنفترض أنّك قدّمت كتابًا كاملاً في الفيزياء كمدخل ("السياق") إلى نموذج لغوي كبير. بعد ذلك، تطرح سؤالاً في الفيزياء على هذا النموذج اللغوي الكبير. إذا كان ردّ النموذج يعكس معلومات واردة في ذلك الكتاب المدرسي، يكون النموذج مستندًا إلى ذلك الكتاب المدرسي.

يُرجى العِلم أنّ النموذج المستند إلى بيانات واقعية ليس دائمًا نموذجًا واقعيًا. على سبيل المثال، قد يتضمّن كتاب الفيزياء المدرسي الذي تم إدخاله أخطاءً.

تحديد المصدر

عملية استناد كل أو جزء من ردّ نموذج لغوي كبير إلى معلومات تم استرجاعها من مصدر واحد أو أكثر من المصادر الموثوقة على سبيل المثال، لنفترض أنّ مستخدمًا يطلب من نموذج لغوي كبير تقديم توقعات الطقس اليوم في برلين. قد يستند النموذج اللغوي الكبير في رده إلى معلومات يجمعها من "المركز الأوروبي للتنبؤات الجوية المتوسطة المدى".

التوليد المعزّز بالاسترجاع (RAG) هو أسلوب شائع لتحديد المصدر.

معلومات فعلية

#fundamentals

الواقع

الشيء الذي حدث بالفعل

على سبيل المثال، لنفترض أنّ هناك نموذج تصنيف ثنائي يتوقّع ما إذا كان الطالب في سنته الأولى بالجامعة سيتخرّج في غضون ست سنوات. تتمثل الحقيقة الأساسية لهذا النموذج في ما إذا كان الطالب قد تخرّج بالفعل في غضون ست سنوات أم لا.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

نقيّم جودة النموذج مقارنةً بالبيانات الأساسية. ومع ذلك، لا تكون البيانات الأساسية صحيحة تمامًا في بعض الأحيان. على سبيل المثال، إليك بعض الأمثلة على العيوب المحتملة في البيانات الأساسية:

في مثال التخرّج، هل نحن متأكدون من أنّ سجلات التخرّج الخاصة بكل طالب صحيحة دائمًا؟ هل سجلات الجامعة دقيقة؟
لنفترض أنّ التصنيف هو قيمة نقطة عائمة تم قياسها باستخدام أدوات (مثل مقاييس الضغط الجوي). كيف يمكننا التأكّد من أنّ كل أداة تمت معايرتها بشكل مماثل أو أنّ كل قراءة تم إجراؤها في الظروف نفسها؟
إذا كان التصنيف يعتمد على رأي بشري، كيف يمكننا التأكّد من أنّ كل مُصنِّف بشري يقيّم الأحداث بالطريقة نفسها؟ لتحسين الاتساق، يتدخّل أحيانًا خبراء من المقيّمين البشريين.

الانحياز لتشابه المجموعة

#responsible

افتراض أنّ ما ينطبق على فرد ينطبق أيضًا على جميع الأفراد في تلك المجموعة يمكن أن تتفاقم آثار الانحياز لتشابه المجموعة إذا تم استخدام عينة عشوائية لجمع البيانات. في عينة غير تمثيلية، قد يتم تقديم إحالات لا تعكس الواقع.

اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة والانحياز لأفراد المجموعة. يمكنك أيضًا الاطّلاع على الإنصاف: أنواع الانحياز في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

حواجز الحماية

أي برنامج أو عملية تمنع إلحاق الضرر بالبشر أو الأنظمة يمكن أن يتخذ الضرر أشكالاً عديدة، بما في ذلك منع تسرُّب البيانات أو الوصول غير المصرّح به، أو ضمان ألا تتضمّن ردود نموذج اللغة الكبير مواد مسيئة.

H

النتائج غير الصحيحة

#generativeAI

إنّها إنتاج نموذج ذكاء اصطناعي توليدي لنتائج تبدو معقولة ولكنّها غير صحيحة من الناحية الواقعية، ويدّعي النموذج أنّه يقدّم تأكيدًا بشأن العالم الحقيقي. على سبيل المثال، إذا ادّعى نموذج ذكاء اصطناعي توليدي أنّ باراك أوباما توفي في عام 1865، يكون هذا النموذج يهلوس.

تجزئة

في تعلُّم الآلة، هي آلية لتجميع البيانات الفئوية، خاصةً عندما يكون عدد الفئات كبيرًا، ولكن عدد الفئات التي تظهر فعليًا في مجموعة البيانات صغير نسبيًا.

على سبيل المثال، تضم الأرض حوالي 73,000 نوع من الأشجار. يمكنك تمثيل كل نوع من أنواع الأشجار البالغ عددها 73,000 في 73,000 مجموعة منفصلة من المجموعات الفئوية. بدلاً من ذلك، إذا ظهر 200 نوع فقط من أنواع الأشجار هذه في مجموعة بيانات، يمكنك استخدام التجزئة لتقسيم أنواع الأشجار إلى 500 مجموعة مثلاً.

يمكن أن يحتوي حوض واحد على أنواع أشجار متعددة. على سبيل المثال، يمكن أن يؤدي التجزئة إلى وضع شجرة الباوباب وشجرة القيقب الأحمر، وهما نوعان مختلفان وراثيًا، في المجموعة نفسها. ومع ذلك، يظل التجزئة طريقة جيدة لربط مجموعات الفئات الكبيرة بعدد الحاويات المحدّد. يحوّل التجزئة ميزة فئوية تتضمّن عددًا كبيرًا من القيم المحتملة إلى عدد أصغر بكثير من القيم من خلال تجميع القيم بطريقة حتمية.

لمزيد من المعلومات، يُرجى الاطّلاع على البيانات الفئوية: المفردات والترميز أحادي في "دورة مكثّفة عن تعلّم الآلة".

إرشادي

حل بسيط وسريع التنفيذ لمشكلة ما على سبيل المثال، "باستخدام طريقة إرشادية، حقّقنا دقة بنسبة% 86. وعندما انتقلنا إلى استخدام شبكة عصبية عميقة، ارتفعت الدقة إلى %98".

الطبقة المخفية

#fundamentals

هي طبقة في شبكة عصبية بين طبقة الإدخال (الميزات) والطبقة النهائية (التوقّع). تتكوّن كل طبقة مخفية من خلية عصبية واحدة أو أكثر. على سبيل المثال، تحتوي الشبكة العصبية التالية على طبقتَين مخفيتَين، الأولى تحتوي على ثلاث خلايا عصبية والثانية على خليتَين عصبيتَين:

تحتوي الشبكة العصبية العميقة على أكثر من طبقة مخفية واحدة. على سبيل المثال، الرسم التوضيحي السابق هو شبكة عصبية عميقة لأنّ النموذج يحتوي على طبقتَين مخفيتَين.

يمكنك الاطّلاع على الشبكات العصبية: العُقد والطبقات المخفية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.

التجميع الهرمي

#clustering

فئة من خوارزميات التجميع العنقودي التي تنشئ شجرة من المجموعات العنقودية. يُعدّ التجميع الهرمي مناسبًا للبيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع العنقودي الهرمي:

تُعيّن عملية التجميع التراكمي كل مثال أولاً إلى مجموعته الخاصة، ثم تدمج بشكل متكرر أقرب المجموعات لإنشاء شجرة هرمية.
تُجمّع عملية التجميع التقسيمي جميع الأمثلة أولاً في مجموعة واحدة، ثم تقسم المجموعة بشكل متكرر إلى شجرة هرمية.

يختلف عن التجميع العنقودي المستند إلى النقاط المركزية.

يمكنك الاطّلاع على خوارزميات التجميع في دورة التجميع التدريبية للحصول على مزيد من المعلومات.

صعود التلال

خوارزمية لتحسين نموذج تعلُّم الآلة بشكل متكرّر ("الصعود إلى أعلى التل") إلى أن يتوقف النموذج عن التحسّن ("الوصول إلى قمة التل"). في ما يلي الشكل العام للخوارزمية:

إنشاء نموذج أولي
يمكنك إنشاء نماذج مرشّحة جديدة من خلال إجراء تعديلات بسيطة على طريقة التدريب أو الضبط الدقيق. وقد يتطلّب ذلك العمل باستخدام مجموعة تدريب مختلفة قليلاً أو معلمات فائقة مختلفة.
قيِّم نماذج المرشّحين الجديدة واتّخِذ أحد الإجراءات التالية:
- إذا كان أداء النموذج المرشّح أفضل من أداء النموذج الأوّلي، سيصبح النموذج المرشّح هو النموذج الأوّلي الجديد. في هذه الحالة، كرِّر الخطوات 1 و2 و3.
- إذا لم يتفوّق أي نموذج على النموذج الأوّلي، يعني ذلك أنّك بلغت ذروة الأداء وعليك التوقّف عن تكرار العملية.

راجِع دليل ضبط التعلّم العميق للحصول على إرشادات حول ضبط المعلَمة الفائقة. راجِع وحدات البيانات في الدورة التدريبية المكثّفة حول تعلُّم الآلة للحصول على إرشادات حول هندسة الخصائص.

الخسارة المفصلية

#Metric

مجموعة من دوال الخسارة الخاصة بالتصنيف والمصمّمة للعثور على حدود القرار بأكبر مسافة ممكنة من كل مثال تدريبي، وبالتالي زيادة الهامش بين الأمثلة والحدود إلى أقصى حد. تستخدم آلات متّجهات الدعم الأساسية خسارة مفصلية (أو دالة ذات صلة، مثل تربيع الخسارة المفصلية). بالنسبة إلى التصنيف الثنائي، يتم تعريف دالة الخسارة المفصلية على النحو التالي:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

حيث y هي التصنيف الصحيح، إما -1 أو +1، وy' هي الناتج الأولي لنموذج التصنيف:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

نتيجةً لذلك، يبدو الرسم البياني لدالة الخسارة المفصلية مقابل (y * y') على النحو التالي:

مخطط ديكارتي يتألف من قطعتين مستقيمتين متصلتين تبدأ قطعة الخط الأولى عند النقطة (-3, 4) وتنتهي عند النقطة (1, 0). تبدأ شريحة السطر الثاني
عند (1, 0) وتستمر إلى أجل غير مسمى بميل
يساوي 0.

التحيّز التاريخي

#responsible

هو نوع من التحيّز الموجود في العالم والذي تم تضمينه في مجموعة بيانات. وتميل هذه التحيزات إلى عكس الصور النمطية الثقافية الحالية، وعدم المساواة الديمغرافية، والتحيزات ضد مجموعات اجتماعية معيّنة.

على سبيل المثال، لنفترض نموذج تصنيف يتنبأ بما إذا كان مقدّم طلب القرض سيتخلّف عن سداد القرض أم لا، وقد تم تدريبه على بيانات سابقة عن التخلّف عن سداد القروض من الثمانينيات من البنوك المحلية في منطقتَين مختلفتَين. إذا كان احتمال تخلّف المتقدّمين من "المجموعة أ" عن سداد قروضهم أكبر بست مرات من احتمال تخلّف المتقدّمين من "المجموعة ب"، قد يتعلّم النموذج تحيّزًا تاريخيًا يؤدي إلى انخفاض احتمال موافقة النموذج على القروض في "المجموعة أ"، حتى إذا لم تعُد الشروط التاريخية التي أدّت إلى ارتفاع معدلات التخلّف عن السداد في هذه المجموعة ذات صلة.

لمزيد من المعلومات، يُرجى الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة".

البيانات المحتجزة

أمثلة لم يتم استخدامها عمدًا ("تم استبعادها") أثناء التدريب مجموعة بيانات التحقّق من الصحة ومجموعة بيانات الاختبار هما مثالان على البيانات المحجوزة. تساعد بيانات محتجزة في تقييم قدرة النموذج على التعميم على البيانات الأخرى غير البيانات التي تم تدريبه عليها. يقدّم معدّل الخطأ في مجموعة البيانات الاحتياطية تقديرًا أفضل لمعدّل الخطأ في مجموعة بيانات غير مرئية مقارنةً بمعدّل الخطأ في مجموعة التدريب.

مضيف

#TensorFlow

#GoogleCloud

عند تدريب نموذج تعلّم آلي على شرائح تسريع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، يكون الجزء من النظام الذي يتحكّم في كلّ مما يلي:

التسلسل العام للرمز
استخراج بيانات مسار الإدخال وتحويلها

يعمل المضيف عادةً على وحدة معالجة مركزية (CPU)، وليس على شريحة تسريع، بينما يعالج الجهاز الموترات على شرائح التسريع.

التقييم البشري

#generativeAI

عملية يقيّم فيها الأشخاص جودة نتائج نموذج تعلُّم الآلة، مثل أن يقيّم أشخاص يتحدثون لغتين جودة نموذج ترجمة يستند إلى تعلُّم الآلة. ويكون التقييم البشري مفيدًا بشكل خاص في تقييم النماذج التي لا تتضمّن إجابة صحيحة واحدة.

يختلف ذلك عن التقييم التلقائي والتقييم التلقائي باستخدام أداة Autorater.

المشاركة البشرية (HITL)

#generativeAI

عبارة اصطلاحية غير محددة المعنى بدقة يمكن أن تشير إلى أي مما يلي:

سياسة تقييم نتائج الذكاء الاصطناعي التوليدي بشكل نقدي أو متشكّك
هي استراتيجية أو نظام لضمان مساهمة الأشخاص في تشكيل سلوك النموذج وتقييمه وتحسينه. يسمح إبقاء الإنسان في عملية الذكاء الاصطناعي للاستفادة من الذكاء الآلي والبشري معًا. على سبيل المثال، النظام الذي ينشئ فيه الذكاء الاصطناعي رموزًا برمجية يراجعها مهندسو البرمجيات هو نظام يتضمّن تدخّل الإنسان.

المعلَمة الفائقة

#fundamentals

المتغيرات التي يتم تعديلها أثناء عمليات التشغيل المتتالية لتدريب نموذج من خلالك أو من خلال خدمة ضبط المعلمات الفائقة على سبيل المثال، معدّل التعلّم هو معلَمة فائقة. يمكنك ضبط معدّل التعلّم على 0.01 قبل جلسة تدريب واحدة. إذا تبيّن لك أنّ القيمة 0.01 مرتفعة جدًا، يمكنك ضبط معدّل التعلّم على 0.003 لجلسة التدريب التالية.

في المقابل، المَعلمات هي الأوزان والانحيازات المختلفة التي يتعلّمها النموذج أثناء التدريب.

مستوى فائق

حدّ يفصل مساحة إلى مساحتَين فرعيتَين على سبيل المثال، الخط هو مستوى فائق في بُعدين، والمستوى هو مستوى فائق في ثلاثة أبعاد. في التعلّم الآلي، يكون المستوى الفائق عادةً هو الحد الفاصل بين مساحة متعددة الأبعاد. تستخدم آلات متّجهات الدعم الأساسية فرط المستويات لفصل الفئات الموجبة عن الفئات السالبة، وغالبًا ما يكون ذلك في مساحة عالية الأبعاد.

I

موزّعة بشكل مستقل ومتشابه

اختصار موزّعة بشكل مستقل ومتشابه

التعرّف على الصورة

هي عملية تصنيف الكائنات أو الأنماط أو المفاهيم في صورة. يُعرف التعرّف على الصور أيضًا باسم تصنيف الصور.

مجموعة بيانات غير متوازنة

مرادف مجموعة بيانات غير متوازنة الفئات

انحياز ضمني

#responsible

تكوين ارتباط أو افتراض تلقائيًا استنادًا إلى نماذج العقل والذكريات يمكن أن يؤثر التحيز الضمني في ما يلي:

طريقة جمع البيانات وتصنيفها
طريقة تصميم وتطوير أنظمة تعلُّم الآلة

على سبيل المثال، عند إنشاء نموذج تصنيف للتعرّف على صور حفلات الزفاف، قد يستخدم أحد المهندسين ظهور فستان أبيض في الصورة كإحدى السمات. ومع ذلك، لم تكن الفساتين البيضاء من العادات إلا خلال عصور معيّنة وفي ثقافات معيّنة.

اطّلِع أيضًا على التحيّز التأكيدي.

الاستدلال

شكل مختصر من احتساب القيمة

عدم توافق مقاييس الإنصاف

#responsible

#Metric

يشير هذا المصطلح إلى فكرة أنّ بعض مفاهيم العدالة غير متوافقة مع بعضها البعض ولا يمكن تحقيقها في الوقت نفسه. نتيجةً لذلك، لا يوجد مقياس عالمي واحد لتحديد مدى العدل يمكن تطبيقه على جميع مشاكل تعلُّم الآلة.

على الرغم من أنّ ذلك قد يبدو محبطًا، إلا أنّ عدم التوافق بين مقاييس العدالة لا يعني أنّ الجهود المبذولة لتحقيق العدالة غير مثمرة. بدلاً من ذلك، تقترح هذه الإرشادات تعريف العدالة بشكل سياقي لمشكلة معيّنة في تعلُّم الآلة، وذلك بهدف منع الأضرار المرتبطة بحالات الاستخدام المحدّدة.

يمكنك الاطّلاع على "حول إمكانية تحقيق العدالة" للحصول على مناقشة أكثر تفصيلاً حول عدم توافق مقاييس العدالة.

التعلّم داخل السياق

#generativeAI

مرادف للتلقين ببضعة أمثلة

موزّعة بشكل مستقل ومتشابه

#fundamentals

البيانات المستخلصة من توزيع لا يتغيّر، ولا تعتمد فيه كل قيمة مستخلصة على القيم التي تم استخلاصها سابقًا. إنّ البيانات الموزّعة بشكل مستقل ومتشابه هي الغاز المثالي في مجال تعلُّم الآلة، وهي بنية رياضية مفيدة ولكنّها نادرًا ما توجد بالضبط في العالم الحقيقي. على سبيل المثال، قد يكون توزيع الزوّار على صفحة ويب موزّعة بشكل مستقل ومتشابه خلال فترة زمنية قصيرة، أي أنّ التوزيع لا يتغيّر خلال تلك الفترة القصيرة، وتكون زيارة أحد الأشخاص مستقلة بشكل عام عن زيارة شخص آخر. ومع ذلك، إذا وسّعت نطاق هذا الإطار الزمني، قد تظهر اختلافات موسمية في عدد زوّار صفحة الويب.

يمكنك الاطّلاع أيضًا على عدم الثبات.

العدالة الفردية

#responsible

#Metric

مقياس عدالة يتحقّق مما إذا تم تصنيف الأفراد المتشابهين بشكل مماثل. على سبيل المثال، قد ترغب أكاديمية Brobdingnagian في تحقيق العدالة الفردية من خلال ضمان أنّ فرص قبول طالبَين متطابقَين في الدرجات ونتائج الاختبارات الموحّدة متساوية.

يُرجى العِلم أنّ العدالة الفردية تعتمد بشكل كامل على طريقة تحديد "التشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، وقد تواجه خطر حدوث مشاكل جديدة في العدالة إذا لم يتضمّن مقياس التشابه معلومات مهمة (مثل مدى صعوبة المناهج الدراسية للطالب).

يمكنك الاطّلاع على "العدالة من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول العدالة الفردية.

الاستنتاج

#fundamentals

#generativeAI

في تعلُّم الآلة التقليدي، عملية إجراء التوقعات من خلال تطبيق نموذج مدرَّب على أمثلة غير مصنَّفة يمكنك الاطّلاع على التعلم الخاضع للإشراف في دورة "مقدمة في تعلُّم الآلة" لمعرفة المزيد.

في النماذج اللغوية الكبيرة، الاستدلال هو عملية استخدام نموذج مُدرَّب لإنشاء ردّ على طلب.

يختلف معنى الاستدلال إلى حدّ ما في الإحصاء. يمكنك الاطّلاع على مقالة الاستدلال الإحصائي على ويكيبيديا للحصول على التفاصيل.

مسار الاستدلال

#df

في شجرة القرار، أثناء الاستدلال، يسلك مثال معيّن مسارًا من الجذر إلى شروط أخرى، وينتهي بورقة. على سبيل المثال، في شجرة القرار التالية، توضّح الأسهم السميكة مسار الاستنتاج لمثال يتضمّن قيم الميزات التالية:

x = 7
y = 12
z = -3

في الرسم التوضيحي التالي، يمر مسار الاستنتاج بثلاث حالات قبل الوصول إلى العقدة الطرفية (Zeta).

شجرة قرارات تتألف من أربعة شروط وخمسة فروع نهائية
شرط الجذر هو (x > 0). بما أنّ الإجابة هي "نعم"، ينتقل مسار الاستنتاج من الجذر إلى الشرط التالي (y > 0).
بما أنّ الإجابة هي "نعم"، ينتقل مسار الاستنتاج إلى الشرط التالي (z > 0). بما أنّ الإجابة هي "لا"، ينتقل مسار الاستدلال إلى عقدته الطرفية، وهي العقدة الفرعية (زيتا).

تشير الأسهم الثلاثة السميكة إلى مسار الاستنتاج.

يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

تحصيل المعلومات

#df

#Metric

في غابات القرارات، يشير هذا المقياس إلى الفرق بين القصور في أحد الأجزاء ومجموع القصور في الأجزاء الفرعية المرجّح (حسب عدد الأمثلة). القصور في أحد الأجزاء هو القصور في الأمثلة الواردة في هذا الجزء.

على سبيل المثال، إليك قيم الإنتروبيا التالية:

إنتروبيا العقدة الرئيسية = 0.6
قصور إحدى العُقد الفرعية التي تتضمّن 16 مثالاً ذا صلة = 0.2
مقياس القصور في عقدة فرعية أخرى تتضمّن 24 مثالاً ذا صلة = 0.1

لذا، %40 من الأمثلة موجودة في إحدى العُقد الفرعية و% 60 في العقدة الفرعية الأخرى. ولذلك:

مجموع القصور المرجّح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

إذًا، يساوي تحصيل المعلومات:

تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المرجّح للأجزاء الفرعية
تحصيل المعلومات = 0.6 - 0.14 = 0.46

تسعى معظم أدوات التقسيم إلى إنشاء شروط تزيد من اكتساب المعلومات إلى أقصى حد.

الانحياز لأفراد المجموعة

#responsible

إظهار التحيز لمجموعة الفرد أو خصائصه إذا كان المختبِرون أو المقيمون من أصدقاء مطوّر تعلُّم الآلة أو أفراد عائلته أو زملائه، قد يؤدي الانحياز لأفراد المجموعة إلى إبطال اختبار المنتج أو مجموعة البيانات.

الانحياز لأفراد المجموعة هو شكل من أشكال الانحياز لتشابه المجموعة. اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة.

يمكنك الاطّلاع على الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

أداة إنشاء البيانات

آلية يتم من خلالها تحميل البيانات في شبكة عصبية

يمكن اعتبار أداة إنشاء الإدخالات مكونًا مسؤولاً عن معالجة البيانات الأولية وتحويلها إلى موترات يتم تكرارها لإنشاء دفعات للتدريب والتقييم والاستدلال.

طبقة الإدخال

#fundamentals

الطبقة في الشبكة العصبونية التي تحتوي على متجه الميزات أي أنّ طبقة الإدخال توفّر أمثلة لأغراض التدريب أو الاستدلال. على سبيل المثال، تتألف طبقة الإدخال في الشبكة العصبية التالية من ميزتَين:

أربع طبقات: الطبقة الأولى وطبقتان مخفيتان والطبقة النهائية

الشرط داخل المجموعة

#df

في شجرة القرارات، الشرط الذي يختبر وجود عنصر واحد في مجموعة من العناصر. على سبيل المثال، ما يلي هو شرط ضمن المجموعة:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة السمة الخاصة بنمط المنزل هي tudor أو colonial أو cape، سيتم تقييم هذا الشرط على أنّه "نعم". إذا كانت قيمة ميزة أسلوب المنزل شيئًا آخر (على سبيل المثال، ranch)، سيتم تقييم هذا الشرط إلى "لا".

تؤدي الشروط داخل المجموعة عادةً إلى أشجار قرارات أكثر فعالية من الشروط التي تختبر الميزات المشفّرة بترميز واحد.

بيئة افتراضية

مرادف لكلمة مثال

ضبط التعليمات

#generativeAI

نوع من الضبط الدقيق يحسّن قدرة نموذج الذكاء الاصطناعي التوليدي على اتّباع التعليمات. تتضمّن عملية ضبط التعليمات تدريب نموذج على سلسلة من طلبات التعليمات، تغطي عادةً مجموعة واسعة من المهام. يميل النموذج الناتج الذي تم ضبطه وفقًا للتعليمات إلى إنشاء ردود مفيدة على الطلبات بلا أمثلة في مجموعة متنوعة من المهام.

المقارنة مع:

الضبط الفعّال من حيث المَعلمات
ضبط الطلبات

القابلية للتفسير

#fundamentals

تشير إلى القدرة على شرح أو عرض طريقة تفكير نموذج تعلُّم الآلة بعبارات يسهل على الإنسان فهمها.

معظم نماذج الانحدار الخطي، على سبيل المثال، يمكن تفسيرها بسهولة. (ما عليك سوى الاطّلاع على القيم التقديرية التي تم التدريب عليها لكل ميزة.) تتسم غابات القرارات أيضًا بقابلية تأويل عالية. ومع ذلك، تتطلّب بعض النماذج عرضًا مرئيًا متطوّرًا لتصبح قابلة للتفسير.

يمكنك استخدام أداة Learning Interpretability Tool (LIT) لتفسير نماذج تعلُّم الآلة.

توافق المقيّمين

#Metric

هو مقياس لمدى توافق المقيمين البشريين عند تنفيذ مهمة ما. إذا لم يتفق المقيّمون، قد يكون من الضروري تحسين تعليمات المهمة. يُعرف هذا المقياس أيضًا باسم اتفاقية بين المعلقين أو موثوقية التقييم بين المقيمين. يُرجى الاطّلاع أيضًا على معامل كابا لكوهين، وهو أحد مقاييس توافق المقيّمين الأكثر شيوعًا.

لمزيد من المعلومات، راجِع البيانات الفئوية: المشاكل الشائعة في "دورة مكثّفة عن تعلّم الآلة".

مقياس التقاطع على الاتحاد (IoU)

تقاطع مجموعتين مقسومًا على اتحادهما في مهام رصد الصور المستندة إلى تعلُّم الآلة، يتم استخدام مقياس IoU لقياس دقة المربع المحيط الذي توقّعه النموذج مقارنةً بالمربع المحيط الخاص بالبيانات الأساسية. في هذه الحالة، تكون نسبة IoU بين المربّعين هي النسبة بين المساحة المتداخلة والمساحة الإجمالية، وتتراوح قيمتها بين 0 (لا يوجد تداخل بين مربّع الحدود المتوقّع ومربّع الحدود الحقيقي) و1 (يتطابق مربّع الحدود المتوقّع ومربّع الحدود الحقيقي تمامًا في الإحداثيات).

على سبيل المثال، في الصورة أدناه:

يتم تحديد المربّع المحيط المتوقّع (الإحداثيات التي تحدّد المكان الذي يتوقّع النموذج أن يكون فيه المنضدة الليلية في اللوحة) باللون الأرجواني.
تمت الإشارة إلى المربّع المحيط بالبيانات الأساسية (الإحداثيات التي تحدّد مكان وجود المنضدة الليلية في اللوحة) باللون الأخضر.

لوحة "غرفة نوم فنسنت في آرل" التي رسمها فان غوخ، مع مربّعَي حدود مختلفَين حول المنضدة الليلية بجانب السرير يحيط المربّع المحيط بالحقيقة الأساسية (باللون الأخضر) تمامًا بمنضدة السرير. يتم إزاحة المربّع المحيط المتوقّع (باللون الأرجواني) بنسبة% 50 إلى الأسفل وإلى اليسار من المربّع المحيط الخاص بالبيانات الصحيحة، وهو يضم الربع السفلي الأيسر من المنضدة الليلية، ولكنّه لا يضم بقية المنضدة.

في هذه الحالة، يبلغ تقاطع المربّعات المحيطة بالتوقّع والحقيقة الأساسية (أسفل اليمين) 1، ويبلغ اتحاد المربّعات المحيطة بالتوقّع والحقيقة الأساسية (أسفل اليسار) 7، وبالتالي تبلغ قيمة IoU $\frac{1}{7}$.

الصورة نفسها كما في الأعلى، ولكن مع تقسيم كل مربّع إحاطة إلى أربعة أرباع. هناك سبعة أرباع إجمالاً، لأنّ الربع السفلي الأيسر من مربّع الإحاطة الخاص بالبيانات الصحيحة والربع العلوي الأيمن من مربّع الإحاطة المتوقّع يتداخلان مع بعضهما البعض. يمثّل هذا الجزء المتداخل (المميّز باللون الأخضر) التقاطع، وتبلغ مساحته 1.

IoU

اختصار تقاطع على اتحاد

مصفوفة المنتجات

في أنظمة الاقتراحات، تكون مصفوفة متجهات التضمين ناتجة عن تحليل المصفوفات، وتتضمّن إشارات كامنة حول كل عنصر. يحتوي كل صف في مصفوفة السلع على قيمة ميزة كامنة واحدة لجميع السلع. على سبيل المثال، لنفترض أنّ لديك نظامًا لاقتراح الأفلام. يمثّل كل عمود في مصفوفة السلع فيلمًا واحدًا. قد تمثّل الإشارات الضمنية أنواعًا من المحتوى، أو قد تكون إشارات يصعب تفسيرها وتتضمّن تفاعلات معقّدة بين النوع والنجوم أو عمر الفيلم أو عوامل أخرى.

تحتوي مصفوفة العناصر على عدد الأعمدة نفسه الذي تحتويه مصفوفة الاستهداف التي يتم تحليلها. على سبيل المثال، إذا كان لديك نظام اقتراحات أفلام يقيّم 10,000 عنوان فيلم، ستحتوي مصفوفة العناصر على 10,000 عمود.

items

في نظام الاقتراحات، تشير إلى الكيانات التي يقترحها النظام. على سبيل المثال، الفيديوهات هي العناصر التي يقترحها متجر الفيديو، بينما الكتب هي العناصر التي يقترحها متجر الكتب.

التكرار

#fundamentals

تعديل واحد على مَعلمات النموذج، أي الأوزان والانحيازات، أثناء التدريب. يحدّد حجم الدفعة عدد الأمثلة التي يعالجها النموذج في تكرار واحد. على سبيل المثال، إذا كان حجم الدفعة 20، سيعالج النموذج 20 مثالاً قبل تعديل المَعلمات.

عند تدريب شبكة عصبونية، تتضمّن عملية التكرار الواحدة الخطوتَين التاليتَين:

عملية تمرير للأمام لتقييم الخسارة في دفعة واحدة
عملية تمرير عكسي (الانتشار العكسي) لضبط معلَمات النموذج استنادًا إلى الخسارة ومعدّل التعلّم

لمزيد من المعلومات، يمكنك الاطّلاع على النزول التدريجي في "دورة مكثّفة عن تعلّم الآلة".

J

JAX

مكتبة للحوسبة على المصفوفات تجمع بين XLA (الجبر الخطي المسرَّع) والتفاضل التلقائي للحوسبة الرقمية العالية الأداء. توفّر JAX واجهة برمجة تطبيقات بسيطة وفعّالة لكتابة رموز رقمية مبرمَجة بسرعة مع عمليات تحويل قابلة للدمج. توفّر JAX ميزات مثل:

grad (التفاضل التلقائي)
jit (الترجمة الفورية)
vmap (التحويل التلقائي إلى رسومات متجهة أو التجميع)
pmap (التنفيذ المتوازي)

‫JAX هي لغة للتعبير عن عمليات تحويل الرموز الرقمية وتركيبها، وهي تشبه مكتبة NumPy في Python، ولكنها أوسع نطاقًا. (في الواقع، مكتبة .numpy ضمن JAX هي نسخة مكافئة وظيفيًا، ولكنها معاد كتابتها بالكامل من مكتبة NumPy في Python).

تُعدّ JAX مناسبة بشكل خاص لتسريع العديد من مهام تعلُّم الآلة من خلال تحويل النماذج والبيانات إلى شكل مناسب للتوازي على وحدات معالجة الرسومات ورقائق مسرّع وحدات معالجة الموتّرات .

Flax وOptax وPax والعديد من المكتبات الأخرى مستنِدة إلى بنية JAX الأساسية.

K

Keras

واجهة برمجة تطبيقات شائعة للتعلم الآلي بلغة Python تعمل Keras على العديد من أُطر عمل التعليم المعمّق، بما في ذلك TensorFlow، حيث تتوفّر باسم tf.keras.

آلات متّجهات الدعم الأساسية (KSVM)

يشير ذلك المصطلح إلى خوارزمية تصنيف تسعى إلى زيادة الفارق بين الفئات الإيجابية و الفئات السلبية من خلال ربط متجهات بيانات الإدخال بمساحة ذات أبعاد أعلى. على سبيل المثال، لنفترض أنّ لديك مشكلة تصنيف تتضمّن مجموعة بيانات إدخال تحتوي على مئة سمة. لزيادة الهامش بين الفئات الإيجابية والسلبية إلى أقصى حد، يمكن أن تربط آلة المتجهات الداعمة المستندة إلى النواة (KSVM) هذه الميزات داخليًا بمساحة ذات مليون بُعد. تستخدم آلات المتجهات الداعمة المستندة إلى النواة دالة خسارة تُعرف باسم دالة الخسارة المفصلية.

النقاط الرئيسية

إحداثيات ميزات معيّنة في صورة على سبيل المثال، بالنسبة إلى نموذج التعرّف على الصور الذي يميّز أنواع الزهور، قد تكون النقاط الأساسية هي مركز كل بتلة، والساق، والسداة، وما إلى ذلك.

التحقّق المتقاطع k-fold

خوارزمية لتوقُّع قدرة النموذج على التعميم على البيانات الجديدة. يشير k في التقسيم إلى k جزء إلى عدد المجموعات المتساوية التي تقسم إليها أمثلة مجموعة البيانات، أي أنّك تدرب النموذج وتختبره k مرة. في كل جولة من التدريب والاختبار، تكون مجموعة مختلفة هي مجموعة الاختبار، وتصبح جميع المجموعات المتبقية مجموعة التدريب. بعد k جولة من التدريب والاختبار، يمكنك حساب المتوسط والانحراف المعياري لمقاييس الاختبار المحدّدة.

على سبيل المثال، لنفترض أنّ مجموعة البيانات تتألف من 120 مثالاً. لنفترض أيضًا أنّك قرّرت ضبط قيمة k على 4. لذلك، بعد ترتيب الأمثلة بشكل عشوائي، عليك تقسيم مجموعة البيانات إلى أربع مجموعات متساوية تضم 30 مثالاً وإجراء أربع جولات تدريب واختبار:

على سبيل المثال، قد يكون الخطأ التربيعي المتوسّط (MSE) المقياس الأكثر أهمية لنموذج الانحدار الخطي. لذلك، عليك إيجاد المتوسط والانحراف المعياري لمتوسط الخطأ التربيعي على مدار جميع الجولات الأربع.

متوسطات تصنيفية

#clustering

هي خوارزمية تجميع شائعة تصنّف الأمثلة في التعلّم غير الموجّه. تنفّذ خوارزمية k-means ما يلي:

تحديد أفضل k نقطة مركزية بشكل متكرر (المعروفة باسم النقاط المركزية)
يتم تعيين كل مثال إلى أقرب نقطة مركزية. وتنتمي الأمثلة الأقرب إلى النقطة المركزية نفسها إلى المجموعة نفسها.

تختار خوارزمية المتوسطات التصنيفية مواقع المراكز لتقليل مجموع المربعات للمسافات من كل مثال إلى أقرب مركز.

على سبيل المثال، إليك الرسم البياني التالي الذي يوضّح العلاقة بين طول الكلب وعرضه:

مخطط ديكارتي يتضمّن عشرات نقاط البيانات

إذا كانت k=3، ستحدّد خوارزمية متوسطات تصنيفية ثلاث نقاط مركزية. يتم تعيين كل مثال إلى أقرب نقطة مركزية له، ما يؤدي إلى إنشاء ثلاث مجموعات:

الرسم البياني الديكارتي نفسه كما في الصورة التوضيحية السابقة، ولكن مع إضافة ثلاثة مراكز ثقل.
يتم تجميع نقاط البيانات السابقة في ثلاث مجموعات مميزة،
تمثّل كل مجموعة نقاط البيانات الأقرب إلى نقطة مركزية معيّنة.

لنفترض أنّ الشركة المصنّعة تريد تحديد المقاسات المثالية للسترات الصغيرة والمتوسطة والكبيرة الخاصة بالكلاب. تحدّد النقاط المركزية الثلاث متوسط الارتفاع ومتوسط العرض لكل كلب في تلك المجموعة. لذلك، من المفترض أن تستند الشركة المصنّعة إلى هذه النقاط المركزية الثلاث في تحديد أحجام السترات. يُرجى العِلم أنّ مركز المجموعة ليس عادةً مثالاً في المجموعة.

توضّح الرسومات التوضيحية السابقة خوارزمية متوسطات تصنيفية للأمثلة التي تتضمّن ميزتَين فقط (الارتفاع والعرض). يُرجى العِلم أنّ متوسطات تصنيفية يمكنها تجميع الأمثلة في العديد من الميزات.

يمكنك الاطّلاع على ما هو التجميع العنقودي بطريقة متوسطات تصنيفية؟ في دورة التجميع العنقودي للحصول على مزيد من المعلومات.

وسيط تصنيفي

#clustering

خوارزمية تجميع ذات صلة وثيقة بمتوسطات تصنيفية. ويكمن الفرق العملي بينهما في ما يلي:

في خوارزمية متوسطات تصنيفية، يتم تحديد النقاط المركزية من خلال تقليل مجموع مربعات المسافة بين نقطة مركزية محتملة وكل مثال من أمثلتها.
في وسيط تصنيفي، يتم تحديد المراكز من خلال تقليل مجموع المسافة بين المركز المرشح وكل مثال من أمثلته.

يُرجى العِلم أنّ تعريفات المسافة تختلف أيضًا:

تعتمد خوارزمية k-means على المسافة الإقليدية من النقطة المركزية إلى مثال. (في بُعدَين، تعني المسافة الإقليدية استخدام نظرية فيثاغورس لاحتساب الوتر). على سبيل المثال، تكون مسافة متوسطات تصنيفية بين (2,2) و (5,-2) كما يلي:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

يعتمد وسيط تصنيفي على مسافة مانهاتن من المركز إلى مثال. هذه المسافة هي مجموع الفروق المطلقة في كل بُعد. على سبيل المثال، ستكون مسافة الوسيط التصنيفي بين (2,2) و (5,-2) كما يلي:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

التسوية ₀

#fundamentals

أحد أنواع التسوية التي تعاقب العدد الإجمالي للأوزان غير الصفرية في أحد النماذج. على سبيل المثال، سيتم فرض عقوبة أكبر على نموذج يتضمّن 11 وزنًا غير صفري مقارنةً بنموذج مشابه يتضمّن 10 أوزان غير صفرية.

يُطلق على تسوية L₀ أحيانًا اسم تسوية L0-norm.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

إنّ تسوية L₀ غير عملية بشكل عام في النماذج الكبيرة لأنّ تسوية L₀ تحوّل التدريب إلى مشكلة تحسين محدّبة.

خسارة ₁

#fundamentals

#Metric

دالة الخسارة التي تحسب القيمة المطلقة للفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L₁ لمجموعة من خمسة أمثلة:

القيمة الفعلية للمثال	القيمة المتوقّعة للنموذج	القيمة المطلقة للتغيير
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		‫8 = خسارة L₁

يكون مقياس فقدان ₁ أقل حساسية للقيم الشاذة من مقياس فقدان ₂.

متوسط الخطأ المطلق هو متوسط خسارة ₁ لكل مثال.

انقر على الرمز للاطّلاع على المسائل الرياضية الرسمية.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

حيث:

$n$ هو عدد الأمثلة.
$y$ هي القيمة الفعلية للتصنيف.
$\hat{y}$ هي القيمة التي يتوقّعها النموذج لـ $y$.

يمكنك الاطّلاع على الانحدار الخطي: الخسارة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

تسوية L₁

#fundamentals

نوع من التسوية يفرض عقوبة على الأوزان بما يتناسب مع مجموع القيمة المطلقة للأوزان. تساعد عملية التسوية L₁ في خفض أوزان الميزات غير الملائمة أو التي لا صلة لها بالموضوع إلى 0 تمامًا. تتم إزالة ميزة ذات وزن 0 من النموذج بشكل فعّال.

يجب عدم الخلط بينها وبين التسوية _L2.

خسارة ₂

#fundamentals

#Metric

يشير ذلك المصطلح إلى دالة خسارة تحسب مربع الفرق بين قيم التصنيف الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، إليك طريقة حساب خسارة L₂ لمجموعة من خمسة أمثلة:

القيمة الفعلية للمثال	القيمة المتوقّعة للنموذج	مربع دلتا
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		‫16 = L₂ خسارة

بسبب التربيع، يؤدي فقدان L₂ إلى تضخيم تأثير القيم الشاذة. أي أنّ دالة الخسارة L₂ تتأثر بشكل أكبر بالتوقعات السيئة مقارنةً بدالة الخسارة L₁. على سبيل المثال، سيكون معدّل فقدان حزمة L₁ السابقة 8 بدلاً من 16. لاحظ أنّ قيمة متطرفة واحدة تمثّل 9 من أصل 16.

تستخدم نماذج الانحدار عادةً دالة الخسارة L₂ كدالة خسارة.

الخطأ التربيعي المتوسّط هو متوسط خسارة ₂ لكل مثال. الخسارة التربيعية هي اسم آخر للخسارة من النوع L₂.

انقر على الرمز للاطّلاع على المسائل الرياضية الرسمية.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

حيث:

$n$ هو عدد الأمثلة.
$y$ هي القيمة الفعلية للتصنيف.
$\hat{y}$ هي القيمة التي يتوقّعها النموذج لـ $y$.

يمكنك الاطّلاع على الانحدار اللوجستي: الخسارة والتسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

التسوية ₂

#fundamentals

أحد أنواع التسوية الذي يعاقب الأوزان بما يتناسب مع مجموع مربعات الأوزان. تساعد عملية التسوية L₂ في تقريب أوزان القيم الشاذة (التي تتضمّن قيمًا موجبة عالية أو قيمًا سالبة منخفضة) إلى 0، ولكن ليس تمامًا إلى 0. تبقى الميزات التي تتضمّن قيمًا قريبة جدًا من 0 في النموذج، ولكنّها لا تؤثّر كثيرًا في التوقّعات التي يقدّمها النموذج.

يؤدي التسوية من النوع L₂ دائمًا إلى تحسين التعميم في النماذج الخطية.

يختلف عن التسوية _L1.

لمزيد من المعلومات، يمكنك الاطّلاع على المطابقة بشكل مفرط: التسوية L2 في "دورة مكثّفة عن تعلّم الآلة".

التصنيف

#fundamentals

في تعلُّم الآلة الموجَّه، يمثّل هذا المصطلح جزء "الإجابة" أو "النتيجة" في مثال.

يتألف كل مثال مصنّف من ميزات واحدة أو أكثر وتصنيف. على سبيل المثال، في مجموعة بيانات مخصّصة لرصد المحتوى غير المرغوب فيه، من المحتمل أن يكون التصنيف إما "محتوى غير مرغوب فيه" أو "ليس محتوًى غير مرغوب فيه". في مجموعة بيانات خاصة بهطول الأمطار، قد يكون التصنيف هو كمية الأمطار التي هطلت خلال فترة زمنية معيّنة.

يمكنك الاطّلاع على التعلم الخاضع للإشراف في "مقدمة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

مثال مصنّف

#fundamentals

مثال يتضمّن ميزات واحدة أو أكثر وتصنيفًا على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة مصنّفة من نموذج لتقييم المنازل، ويتضمّن كل مثال ثلاث سمات وتصنيفًا واحدًا:

عدد غرف النوم	عدد الحمّامات	عمر المنزل	سعر المنزل (التصنيف)
3	2	15	$345,000
2	1	72	179,000 دولار أمريكي
4	2	34	‫392,000 دولار أمريكي

في تعلُّم الآلة الموجَّه، يتم تدريب النماذج على أمثلة مصنَّفة، ويتم إجراء توقعات على أمثلة غير مصنَّفة.

قارِن بين الأمثلة المصنّفة والأمثلة غير المصنّفة.

يمكنك الاطّلاع على التعلم الخاضع للإشراف في "مقدمة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

تسريب التصنيفات

عيب في تصميم النموذج، حيث تكون السمة بديلاً عن التصنيف. على سبيل المثال، لنفترض نموذج تصنيف ثنائي يتنبأ بما إذا كان أحد العملاء المحتملين سيشتري منتجًا معيّنًا أم لا. لنفترض أنّ إحدى سمات النموذج هي قيمة منطقية باسم SpokeToCustomerAgent. لنفترض أيضًا أنّه لا يتم تعيين وكيل خدمة عملاء إلا بعد أن يشتري العميل المحتمل المنتج فعليًا. أثناء التدريب، سيتعلّم النموذج بسرعة العلاقة بين SpokeToCustomerAgent والتصنيف.

لمزيد من المعلومات، اطّلِع على رصد مسارات التعلّم في "دورة مكثّفة عن تعلّم الآلة".

lambda

#fundamentals

مرادف معدل التسوية

‫Lambda هو مصطلح مستخدَم بشكل مفرط. نركّز هنا على تعريف المصطلح ضمن التسوية.

‫LaMDA (نموذج لغوي مخصَّص لتطبيقات المحادثة)

‫LaMDA هو نموذج لغوي كبير يستند إلى Transformer، وقد طوّرته Google ودربته على مجموعة بيانات كبيرة من الحوارات، ما يتيح له إنشاء ردود واقعية.

‫LaMDA: تقنية المحادثات المبتكرة تقدّم نظرة عامة.

المعالم

مرادف للنقاط الرئيسية

نموذج لغوي

النموذج هو نموذج يقدّر احتمالية ظهور رمز مميّز أو تسلسل من الرموز المميزة في تسلسل أطول من الرموز المميزة.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

على الرغم من أنّ ذلك قد يبدو غير منطقي، فإنّ العديد من النماذج التي تقيّم النصوص ليست نماذج لغوية. على سبيل المثال، لا تُعدّ نماذج تصنيف النصوص ونماذج تحليل المشاعر نماذج لغوية.

يمكنك الاطّلاع على ما هو نموذج اللغة؟ في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

النموذج اللغوي الكبير

#generativeAI

كحدّ أدنى، يجب أن يتضمّن النموذج اللغوي عددًا كبيرًا جدًا من المَعلمات. بشكل غير رسمي، أي نموذج لغة مستند إلى Transformer، مثل Gemini أو GPT

لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".

وقت الاستجابة

#generativeAI

الوقت الذي يستغرقه النموذج لمعالجة الإدخال وإنشاء ردّ يستغرق إنشاء الردود ذات وقت الاستجابة العالي وقتًا أطول من إنشاء الردود ذات وقت الاستجابة المنخفض.

تشمل العوامل التي تؤثر في وقت الاستجابة للنماذج اللغوية الكبيرة ما يلي:

أطوال الرموز المميزة للإدخال والإخراج
مدى تعقيد النموذج
البنية الأساسية التي يعمل عليها النموذج

يُعدّ تحسين وقت الاستجابة أمرًا بالغ الأهمية لإنشاء تطبيقات سريعة الاستجابة وسهلة الاستخدام.

مساحة كامنة

مرادف لمساحة التضمين

طبقة

#fundamentals

مجموعة من الخلايا العصبية في شبكة عصبية في ما يلي ثلاثة أنواع شائعة من الطبقات:

طبقة الإدخال، التي توفّر قيمًا لجميع المعالم
طبقة مخفية واحدة أو أكثر، والتي تعثر على علاقات غير خطية بين السمات والتصنيف
الطبقة النهائية، التي تقدّم التوقّع.

على سبيل المثال، يوضّح الرسم التوضيحي التالي شبكة عصبونية تتضمّن الطبقة الأولى وطبقتَين مخفيتَين والطبقة النهائية:

شبكة عصبية تتضمّن طبقة إدخال واحدة وطبقتَين مخفيتَين وطبقة إخراج واحدة تتألف طبقة الإدخال من ميزتَين. تتكوّن الطبقة المخفية الأولى من ثلاث خلايا عصبية، وتتكوّن الطبقة المخفية الثانية من خليتَين عصبيتَين. تتألف الطبقة النهائية من عقدة واحدة.

في TensorFlow، تكون الطبقات أيضًا عبارة عن دوال Python تأخذ موترات وخيارات إعداد كمدخلات وتنتج موترات أخرى كمخرجات.

Layers API (tf.layers)

#TensorFlow

واجهة برمجة تطبيقات TensorFlow لإنشاء شبكة عصبية عميقة كتركيبة من الطبقات تتيح لك واجهة برمجة التطبيقات للطبقات إنشاء أنواع مختلفة من الطبقات، مثل:

tf.layers.Dense لطبقة مكتملة الاتصال
‫tf.layers.Conv2D لطبقة التفافية

تتّبع واجهة برمجة التطبيقات للطبقات اصطلاحات واجهة برمجة التطبيقات الخاصة بطبقات Keras. أي أنّه باستثناء البادئة المختلفة، تتشارك جميع الدوال في واجهة برمجة التطبيقات للطبقات الأسماء والتوقيعات نفسها مع نظيراتها في واجهة برمجة التطبيقات Keras layers API.

ورقة شجر

#df

أي نقطة نهاية في شجرة القرارات على عكس الشرط، لا تنفّذ الورقة اختبارًا. بل إنّ الورقة هي عبارة عن توقّع محتمل. العقدة الطرفية هي أيضًا العقدة الأخيرة في مسار الاستدلال.

على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاث أوراق:

شجرة قرار تتضمّن شرطَين يؤديان إلى ثلاث أوراق.

يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

أداة Learning Interpretability Tool (LIT)

أداة مرئية وتفاعلية لفهم النماذج وتصوّر البيانات

يمكنك استخدام LIT مفتوحة المصدر من أجل تفسير النماذج أو عرض البيانات النصية والصور والبيانات الجدولية.

معدّل التعلّم

#fundamentals

هو عدد ذو فاصلة عائمة يحدد مدى تأثير تعديل الأوزان والانحيازات في كل تكرار على خوارزمية النزول التدريجي. على سبيل المثال، يؤدي معدّل التعلّم البالغ 0.3 إلى تعديل الأوزان والانحيازات بقوة أكبر بثلاث مرات من معدّل التعلّم البالغ 0.1.

معدّل التعلّم هو مَعلمة فائقة أساسية. إذا ضبطت معدّل التعلّم على قيمة منخفضة جدًا، سيستغرق التدريب وقتًا طويلاً جدًا. إذا حدّدت معدّل التعلّم على قيمة مرتفعة جدًا، سيواجه نزول التدرّج غالبًا صعوبة في الوصول إلى التقارب.

انقر على الرمز للحصول على شرح رياضي أكثر تفصيلاً.

خلال كل تكرار، تضرب خوارزمية النزول التدريجي معدّل التعلّم في الانحدار. يُطلق على المنتج الناتج اسم خطوة التدرّج.

انحدار التربيعات الأقل

نموذج انحدار خطي تم تدريبه من خلال خفض خسارة _L2.

التلقين من الأقل إلى الأكثر

أحد أشكال تسلسل الطلبات الذي يقسّم المشاكل المعقّدة إلى مجموعة مرتّبة من المشاكل الأبسط. على سبيل المثال، إليك استراتيجية طلبات من الأسهل إلى الأصعب لمشكلة معيّنة:

قسِّم المشكلة المعقّدة إلى قائمة مرتبة من المشاكل الفرعية الأبسط. في هذا المثال، افترض أنّها ثلاث مشاكل فرعية.
الطلب 1: اطلب من نموذج اللغة الكبير حلّ المشكلة الفرعية الأولى. يعرض النموذج اللغوي الكبير الرد 1.
الطلب 2: ادمج كل أو جزء من الرد 1 في الطلب لحل المشكلة الفرعية الثانية. يعرض النموذج اللغوي الكبير الردّ 2.
الطلب 3: ادمج كل أو جزء من الردّ 2 في الطلب لحل المشكلة الفرعية الثالثة. تمثّل استجابة النموذج اللغوي الكبير (LLM) للطلب 3 الإجابة "النهائية" للمشكلة المعقّدة الأولية.

يُرجى العِلم أنّ كل خطوة تعتمد على حلّ الخطوة السابقة.

يختلف هذا الأسلوب عن أسلوب المطالبة بشجرة الأفكار.

مسافة ليفنشتاين

#metric

مقياس مسافة التعديل الذي يحسب أقل عدد من عمليات الحذف والإدراج والاستبدال المطلوبة لتغيير كلمة إلى أخرى على سبيل المثال، تبلغ مسافة Levenshtein بين الكلمتَين "قلب" و "سهام" ثلاث عمليات تعديل لأنّ التعديلات الثلاث التالية هي أقل التغييرات اللازمة لتحويل إحدى الكلمتَين إلى الأخرى:

heart → deart (استبدال "h" بـ "d")
deart → dart (حذف الحرف "e")
dart → darts (إضافة "s")

يُرجى العِلم أنّ التسلسل السابق ليس المسار الوحيد الذي يتضمّن ثلاثة تعديلات.

خطي

#fundamentals

يشير ذلك المصطلح إلى علاقة بين متغيّرَين أو أكثر يمكن تمثيلها فقط من خلال الجمع والضرب.

رسم العلاقة الخطية هو خط.

يجب أن يكون التباين غير خطي.

النموذج الخطي

#fundamentals

نموذج يحدّد وزنًا واحدًا لكل سمة لإجراء توقّعات. (تتضمّن النماذج الخطية أيضًا انحيازًا). في المقابل، تكون العلاقة بين الميزات والتوقعات في النماذج العميقة غير خطية بشكل عام.

عادةً ما يكون تدريب النماذج الخطية أسهل وأكثر قابلية للتفسير من النماذج العميقة. ومع ذلك، يمكن للنماذج العميقة تعلُّم العلاقات المعقّدة بين الميزات.

الانحدار الخطي والانحدار اللوجستي هما نوعان من النماذج الخطية.

انقر على الرمز للاطّلاع على العمليات الحسابية.

يتّبع النموذج الخطي الصيغة التالية:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

حيث:

تمثّل y' القيمة المتوقّعة الأولية. (في أنواع معيّنة من النماذج الخطية، سيتم تعديل هذه النتيجة الأولية بشكل أكبر. على سبيل المثال، راجِع الانحدار اللوجستي.)
يمثّل b التحيّز.
w هو وزن، وبالتالي فإنّ w₁ هو وزن الميزة الأولى، وw₂ هو وزن الميزة الثانية، وهكذا.
تمثّل x ميزة، وبالتالي فإنّ x₁ هي قيمة الميزة الأولى، وx₂ هي قيمة الميزة الثانية، وهكذا.

على سبيل المثال، لنفترض أنّ نموذجًا خطيًا لثلاث سمات يتعلّم الانحياز والأوزان التالية:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

وبالتالي، عند توفّر ثلاث ميزات (x₁ وx₂ وx₃)، يستخدم النموذج الخطي المعادلة التالية لإنشاء كل قيمة متوقّعة:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

لنفترض أنّ مثالاً معيّنًا يتضمّن القيم التالية:

x₁ = 4
‫x₂ = -10
x₃ = 5

يؤدي إدخال هذه القيم في الصيغة إلى الحصول على تنبؤ لهذا المثال:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

لا تشمل النماذج الخطية النماذج التي تستخدم معادلة خطية فقط لوضع التوقعات، بل تشمل أيضًا مجموعة أوسع من النماذج التي تستخدم معادلة خطية كأحد مكوّنات الصيغة التي تضع التوقعات. على سبيل المثال، تعالج عملية الانحدار اللوجستي اللاحقة التوقّع الأوّلي (y') لإنتاج قيمة توقّع نهائية بين 0 و1، حصريًا.

الانحدار الخطي

#fundamentals

نوع من نماذج تعلُّم الآلة ينطبق عليه ما يلي:

النموذج هو نموذج خطي.
التوقّع هو قيمة نقطة عائمة. (هذا هو جزء الانحدار في الانحدار الخطي).

قارِن بين الانحدار الخطي والانحدار اللوجستي. قارِن أيضًا بين الانحدار والتصنيف.

يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

LIT

اختصار Learning Interpretability Tool (LIT)، التي كانت تُعرف سابقًا باسم Language Interpretability Tool.

LLM

#generativeAI

اختصار النموذج اللغوي الكبير

تقييمات النماذج اللغوية الكبيرة

#generativeAI

#Metric

مجموعة من المقاييس ومقاييس الأداء لتقييم أداء النماذج اللغوية الكبيرة (LLM). بشكل عام، تتضمّن عمليات تقييم النماذج اللغوية الكبيرة ما يلي:

مساعدة الباحثين في تحديد المجالات التي تحتاج فيها النماذج اللغوية الكبيرة إلى تحسين
وهي مفيدة في مقارنة النماذج اللغوية الكبيرة المختلفة وتحديد أفضل نموذج لغوي كبير لمهمة معيّنة.
المساعدة في ضمان أنّ استخدام النماذج اللغوية الكبيرة آمن وأخلاقي

لمزيد من المعلومات، يمكنك الاطّلاع على النماذج اللغوية الكبيرة (LLM) في "دورة مكثّفة عن تعلُّم الآلة".

الانحدار اللوجستي

#fundamentals

أحد أنواع نماذج الانحدار التي تتنبأ باحتمالية. تتضمّن نماذج الانحدار اللوجستي الخصائص التالية:

التصنيف فئوي. يشير مصطلح الانحدار اللوجستي عادةً إلى الانحدار اللوجستي الثنائي، أي إلى نموذج يحسب احتمالات التصنيفات التي تتضمّن قيمتَين محتملتَين. هناك صيغة أقل شيوعًا، وهي الانحدار اللوجستي المتعدد الحدود، التي تحسب احتمالات التصنيفات التي تتضمّن أكثر من قيمتَين محتملتَين.
دالة الخسارة أثناء التدريب هي الخسارة اللوغاريتمية. (يمكن وضع وحدات الخسارة اللوغاريتمية متعددة بالتوازي للتصنيفات التي تتضمّن أكثر من قيمتَين محتملتَين).
يستخدم النموذج بنية خطية، وليس شبكة عصبية عميقة. ومع ذلك، ينطبق الجزء المتبقي من هذا التعريف أيضًا على النماذج العميقة التي تتنبأ بالاحتمالات للتصنيفات الفئوية.

على سبيل المثال، لنفترض نموذج انحدار لوجستي يحسب احتمال أن تكون رسالة إلكترونية واردة غير مرغوب فيها أو غير ذلك. أثناء الاستدلال، لنفترض أنّ النموذج يتوقّع القيمة 0.72. وبالتالي، يقدّر النموذج ما يلي:

فرصة بنسبة% 72 أن تكون الرسالة الإلكترونية غير مرغوب فيها
هناك احتمال بنسبة% 28 ألّا تكون الرسالة الإلكترونية غير مرغوب فيها.

يستخدم نموذج الانحدار اللوجستي بنية من خطوتَين:

ينشئ النموذج قيمة توقّع أولية (y') من خلال تطبيق دالة خطية على ميزات الإدخال.
يستخدم النموذج هذا التوقّع الأولي كإدخال إلى دالة سينية، ما يؤدي إلى تحويل التوقّع الأولي إلى قيمة بين 0 و1، باستثناء هذين الرقمين.

كما هو الحال مع أي نموذج انحدار، يتنبأ نموذج الانحدار اللوجستي برقم. ومع ذلك، يصبح هذا الرقم عادةً جزءًا من نموذج تصنيف ثنائي على النحو التالي:

إذا كان الرقم المتوقّع أكبر من عتبة التصنيف، سيتوقّع نموذج التصنيف الثنائي الفئة الموجبة.
إذا كان الرقم المتوقّع أقل من عتبة التصنيف، يتوقّع نموذج التصنيف الثنائي الفئة السالبة.

لمزيد من المعلومات، يمكنك الاطّلاع على الانحدار اللوجستي في "دورة مكثّفة عن تعلّم الآلة".

لوجيت

متّجه التوقّعات الأولية (غير المعدَّلة) التي ينشئها نموذج التصنيف، والتي يتم عادةً تمريرها إلى دالة تعديل. إذا كان النموذج يحلّ مشكلة تصنيف متعدد الفئات، تصبح القيم اللوغاريتمية عادةً إدخالاً إلى دالة softmax. تنشئ دالة softmax بعد ذلك متجهًا من الاحتمالات (المعدَّلة) يتضمّن قيمة واحدة لكل فئة محتملة.

الخسارة اللوغاريتمية

#fundamentals

دالة الخسارة المستخدَمة في الانحدار اللوجستي الثنائي

انقر على الرمز للاطّلاع على العمليات الحسابية.

تحتسب الصيغة التالية الخسارة اللوغاريتمية:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

حيث:

$(x,y)\in D$ هي مجموعة البيانات التي تحتوي على العديد من الأمثلة المصنّفة، والتي تكون $(x,y)$ أزواجًا.
$y$ هو التصنيف في مثال مصنّف. بما أنّ هذا انحدار لوجستي، يجب أن تكون كل قيمة من قيم $y$ إما 0 أو 1.
$y'$ هي القيمة المتوقّعة (بين 0 و1، باستثناء القيمتين)، بالنظر إلى مجموعة السمات في $x$.

لوغاريتم فرص الأفضلية

#fundamentals

يشير ذلك المصطلح إلى لوغاريتم يوضِّح معدّل احتمالية وقوع حدث معيّن.

انقر على الرمز للاطّلاع على العمليات الحسابية.

إذا كان الحدث عبارة عن احتمال ثنائي، يشير الاحتمال إلى نسبة احتمال النجاح (p) إلى احتمال الفشل (1-p). على سبيل المثال، لنفترض أنّ حدثًا معيّنًا لديه احتمال نجاح بنسبة %90 واحتمال فشل بنسبة% 10. في هذه الحالة، يتم احتساب الاحتمالات على النحو التالي:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

لوغاريتم فرص الأفضلية هو ببساطة لوغاريتم فرص الأفضلية. بموجب الاتفاقية، يشير مصطلح "اللوغاريتم" إلى اللوغاريتم الطبيعي، ولكن يمكن أن يكون اللوغاريتم أي أساس أكبر من 1. وبالتالي، فإنّ لوغاريتم فرص الأفضلية في مثالنا هي:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

دالة لوغاريتم فرص الأفضلية هي معكوس الدالّة الإسية.

الذاكرة الطويلة المدى والقصيرة المدى (LSTM)

نوع من الخلايا في الشبكة العصبية المتكررة، ويُستخدم لمعالجة تسلسلات البيانات في تطبيقات مثل التعرّف على خط اليد والترجمة الآلية والتعليق على الصور. تعالج شبكات الذاكرة الطويلة والقصيرة المدى مشكلة تضاؤل التدرّج التي تحدث عند تدريب الشبكات العصبية المتكرّرة بسبب تسلسلات البيانات الطويلة من خلال الاحتفاظ بالسجلّ في حالة ذاكرة داخلية استنادًا إلى الإدخال الجديد والسياق من الخلايا السابقة في الشبكة العصبية المتكرّرة.

LoRA

#generativeAI

اختصار Low-Rank Adaptability

خسارة

#fundamentals

#Metric

أثناء تدريب نموذج خاضع للإشراف، يتم قياس مدى بُعد التوقّع الذي يقدّمه النموذج عن التصنيف.

تحسب دالة الخسارة الخسارة.

يمكنك الاطّلاع على الانحدار الخطي: الخسارة في دورة مكثّفة عن تعلّم الآلة للحصول على مزيد من المعلومات.

مجمّع الخسائر

نوع من خوارزميات تعلُّم الآلة التي تحسِّن أداء نموذج من خلال الجمع بين توقّعات نماذج متعددة واستخدام هذه التوقّعات لتقديم توقّع واحد. نتيجةً لذلك، يمكن لمجمّع الخسائر أن يقلّل تباين التوقّعات ويحسّن دقة التوقّعات.

منحنى الخسارة

#fundamentals

رسم بياني للخسارة كدالة لعدد التكرارات التدريبية يعرض الرسم البياني التالي منحنى خسارة نموذجيًا:

رسم بياني ديكارتي للخسارة مقابل تكرارات التدريب، يوضّح انخفاضًا سريعًا في الخسارة خلال التكرارات الأولية، يليه انخفاض تدريجي، ثم ميل مسطّح خلال التكرارات النهائية.

يمكن أن تساعدك منحنيات الخسارة في تحديد ما إذا كان نموذجك يتقارب أو يفرط في التكيّف.

يمكن أن ترسم منحنيات الخسارة جميع أنواع الخسارة التالية:

فقدان التدريب
فقدان التحقّق من الصحة
فقدان البيانات أثناء الاختبار

اطّلِع أيضًا على منحنى التعميم.

يمكنك الاطّلاع على التدريب الزائد: تفسير منحنيات الخسارة في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

دالة الخسارة

#fundamentals

#Metric

أثناء التدريب أو الاختبار، يتم استخدام دالة رياضية تحسب مقدار الخطأ في دفعة من الأمثلة. تعرض دالة الخسارة قيمة خسارة أقل للنماذج التي تقدّم توقّعات جيدة مقارنةً بالنماذج التي تقدّم توقّعات سيئة.

عادةً ما يكون الهدف من التدريب هو تقليل الخسارة التي تعرضها دالة الخسارة.

تتوفّر العديد من أنواع دوال الخسارة المختلفة. اختَر دالة الخسارة المناسبة لنوع النموذج الذي تنشئه. على سبيل المثال:

فقدان _L2 (أو الخطأ التربيعي المتوسّط) هو دالة الفقدان للانحدار الخطي.
الخسارة اللوغارتمية هي دالة الخسارة في الانحدار اللوجستي.

سطح الخسارة

رسم بياني للأوزان مقابل الخسارة. تهدف النزول التدريجي إلى العثور على الأوزان التي يكون فيها سطح الخسارة عند الحد الأدنى المحلي.

تأثير الضياع في المنتصف

ميل النماذج اللغوية الكبيرة إلى استخدام المعلومات من بداية ونهاية قدرة الاستيعاب الطويلة بشكل أكثر فعالية من المعلومات الواردة في المنتصف أي، عند توفّر سياق طويل، يؤدي تأثير "الضياع في المنتصف" إلى أن تكون الدقة:

مرتفع نسبيًا عندما تكون المعلومات ذات الصلة لتكوين رد قريبة من بداية السياق أو نهايته
منخفضة نسبيًا عندما تكون المعلومات ذات الصلة لتكوين رد في منتصف السياق

هذا المصطلح مستوحى من ورقة بحثية بعنوان Lost in the Middle: How Language Models Use Long Contexts.

Low-Rank Adaptability (LoRA)

#generativeAI

هي تقنية فعّالة من حيث عدد المَعلمات تُستخدَم في الضبط الدقيق، وتعمل على "تجميد" الأوزان المُدرَّبة مسبقًا للنموذج (بحيث لا يمكن تعديلها بعد ذلك)، ثم إدراج مجموعة صغيرة من الأوزان القابلة للتدريب في النموذج. تكون مجموعة الأوزان القابلة للتدريب هذه (المعروفة أيضًا باسم "مصفوفات التعديل") أصغر بكثير من النموذج الأساسي، وبالتالي تكون عملية تدريبها أسرع بكثير.

توفّر LoRA المزايا التالية:

يحسّن جودة توقّعات النموذج للمجال الذي يتم فيه تطبيق الضبط الدقيق.
يتم الضبط بشكل أسرع من التقنيات التي تتطلّب ضبط جميع مَعلمات النموذج.
يقلّل هذا الخيار من تكلفة الاستدلال الحسابية من خلال إتاحة عرض متزامن لعدة نماذج متخصصة تشترك في النموذج الأساسي نفسه.

انقر على الرمز لمعرفة المزيد عن مصفوفات التحديث في LoRA.

تتألف مصفوفات التحديث المستخدَمة في LoRA من مصفوفات تحليل الرتبة، التي يتم استخلاصها من النموذج الأساسي للمساعدة في فلترة التشويش والتركيز على تدريب أهم ميزات النموذج.

LSTM

اختصار الذاكرة الطويلة والقصيرة المدى

M

تعلُم الآلة

#fundamentals

برنامج أو نظام يدرّب نموذجًا من البيانات التي يتم إدخالها. يمكن للنموذج المدرَّب أن يقدّم توقّعات مفيدة من بيانات جديدة (لم يسبق رؤيتها) مأخوذة من التوزيع نفسه المستخدَم لتدريب النموذج.

يشير تعلُّم الآلة أيضًا إلى مجال الدراسة المعني بهذه البرامج أو الأنظمة.

يمكنك الاطّلاع على دورة مقدّمة عن تعلُّم الآلة للحصول على مزيد من المعلومات.

الترجمة الآلية

#generativeAI

استخدام برنامج (عادةً، نموذج لتعلُّم الآلة) لتحويل نص من لغة بشرية إلى أخرى، مثلاً من الإنجليزية إلى اليابانية

الفئة الأكبر

#fundamentals

التصنيف الأكثر شيوعًا في مجموعة بيانات غير متوازنة الفئات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 99% من التصنيفات السلبية و1% من التصنيفات الإيجابية، تكون التصنيفات السلبية هي الفئة الأكبر.

التباين مع الفئة الأقلية

يمكنك الاطّلاع على مجموعات البيانات: مجموعات البيانات غير المتوازنة في دورة مكثّفة عن تعلّم الآلة للحصول على مزيد من المعلومات.

حساب المدير

#agent

وكيل يتحكّم في وكيل فرعي واحد أو أكثر.

عملية اتخاذ القرار في ماركوف (MDP)

رسم بياني يمثّل نموذج اتّخاذ القرار حيث يتم اتّخاذ القرارات (أو الإجراءات) لتصفّح سلسلة من الحالات بافتراض أنّ خاصية ماركوف صحيحة. في التعلّم التعزيزي، تؤدي عمليات الانتقال بين الحالات إلى عرض مكافأة عددية.

خاصية ماركوف

هي سمة لبعض البيئات، حيث يتم تحديد عمليات الانتقال بين الحالات بشكل كامل من خلال المعلومات الضمنية في الحالة الحالية وإجراء الوكيل.

نموذج لغوي مخفي

نموذج لغوي يتوقّع احتمالية أن تملأ الرموز المميزة المرشّحة الفراغات في تسلسل. على سبيل المثال، يمكن لنموذج لغة مخفي حساب احتمالات الكلمات المرشّحة لتحلّ محلّ الشرطة السفلية في الجملة التالية:

عاد ____ في القبعة.

تستخدم المراجع عادةً السلسلة "MASK" بدلاً من الشرطة السفلية. على سبيل المثال:

عاد "القناع" في القبعة.

معظم نماذج اللغة الحديثة التي تستخدم الإخفاء هي ثنائية الاتجاه.

math-pass@k

مقياس لتحديد دقة النموذج اللغوي الكبير في حلّ مسألة رياضية خلال K محاولة على سبيل المثال، يقيس مقياس math-pass@2 قدرة النموذج اللغوي الكبير على حلّ المسائل الرياضية في محاولتَين. تشير دقة 0.85 في math-pass@2 إلى أنّ نموذجًا لغويًا كبيرًا تمكّن من حلّ المسائل الحسابية بنسبة% 85 من المرات خلال محاولتَين.

مقياس math-pass@k مطابق لمقياس pass@k، إلا أنّ مصطلح math-pass@k يُستخدم تحديدًا لتقييم الرياضيات.

matplotlib

تفكيك المصفوفة

في الرياضيات، هي آلية للعثور على المصفوفات التي يكون ناتج ضربها النقطي قريبًا من مصفوفة مستهدَفة.

في أنظمة التوصية، تحتوي مصفوفة الاستهداف غالبًا على تقييمات المستخدمين للعناصر. على سبيل المثال، قد تبدو مصفوفة الاستهداف لنظام اقتراحات الأفلام على النحو التالي، حيث تمثّل الأعداد الصحيحة الموجبة تقييمات المستخدمين، ويعني الرقم 0 أنّ المستخدم لم يقيّم الفيلم:

	الدار البيضاء	The Philadelphia Story	Black Panther	المرأة المعجزة	Pulp Fiction
مستخدم 1	5.0	3	0.0	2.0	0.0
مستخدم 2	4.0	0.0	0.0	1	5.0
مستخدم 3	3	1	4.0	5.0	0.0

يهدف نظام اقتراحات الأفلام إلى توقّع تقييمات المستخدمين للأفلام التي لم يتم تقييمها. على سبيل المثال، هل سيعجب المستخدم 1 بفيلم Black Panther؟

أحد الأساليب التي تتّبعها الأنظمة لتقديم محتوى مقترح هو استخدام تحليل المصفوفات لإنشاء المصفوفتَين التاليتَين:

مصفوفة المستخدمين، وهي عبارة عن عدد المستخدمين مضروبًا في عدد سمات التضمين.
مصفوفة عناصر، يتم تحديد شكلها على أنّه عدد سمات التضمين X عدد العناصر.

على سبيل المثال، يمكن أن يؤدي استخدام تحليل المصفوفات إلى الحصول على مصفوفة المستخدمين ومصفوفة المنتجات التالية:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

يؤدي ضرب مصفوفة المستخدم في مصفوفة السلع إلى إنشاء مصفوفة توصيات لا تحتوي على تقييمات المستخدمين الأصلية فحسب، بل تتضمّن أيضًا توقعات بشأن الأفلام التي لم يشاهدها كل مستخدم. على سبيل المثال، ضع في اعتبارك تقييم المستخدم 1 لفيلم كازابلانكا، والذي كان 5.0. من المفترض أن يكون المنتج النقطي المقابل لتلك الخلية في مصفوفة الاقتراحات حوالي 5.0، وهو كذلك:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

والأهم من ذلك، هل سيعجب المستخدم 1 فيلم Black Panther؟ يؤدي أخذ ناتج الضرب النقطي المقابل للصف الأول والعمود الثالث إلى الحصول على تقييم متوقّع يبلغ 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

تؤدي عملية تحليل المصفوفة عادةً إلى إنشاء مصفوفة مستخدمين ومصفوفة عناصر، تكونان معًا أكثر إحكامًا بكثير من المصفوفة المستهدَفة.

MBPP

#Metric

اختصار معظم المشاكل الأساسية في لغة Python

متوسّط الخطأ المطلق (MAE)

#Metric

متوسط الخسارة لكل مثال عند استخدام L₁ loss احسب متوسّط الخطأ المطلق على النحو التالي:

احسب خسارة L₁ لمجموعة.
قسِّم خسارة L₁ على عدد الأمثلة في المجموعة.

انقر على الرمز للاطّلاع على المسائل الرياضية الرسمية.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

where:

$n$ هو عدد الأمثلة.
$y$ هي القيمة الفعلية للتصنيف.
$\hat{y}$ هي القيمة التي يتوقّعها النموذج لـ $y$.

على سبيل المثال، لنفترض أنّنا نريد حساب خسارة L₁ على مجموعة من خمسة أمثلة كما يلي:

القيمة الفعلية للمثال	القيمة المتوقّعة للنموذج	الخسارة (الفرق بين القيمة الفعلية والقيمة المتوقّعة)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		‫8 = خسارة L₁

إذًا، قيمة L₁ هي 8 وعدد الأمثلة هو 5. وبالتالي، فإنّ متوسّط الخطأ المطلق هو:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

قارِن بين متوسط الخطأ المطلق والخطأ التربيعي المتوسّط وجذر الخطأ التربيعي المتوسّط.

متوسط الدقة عند k (mAP@k)

#generativeAI

#Metric

المتوسط الإحصائي لكل نتائج متوسط الدقة عند k في مجموعة بيانات التحقّق. يُستخدم متوسط الدقة عند k في تقييم جودة المحتوى المقترح الذي يقدّمه نظام التوصية.

على الرغم من أنّ عبارة "المتوسط الحسابي" تبدو مكرّرة، إلا أنّ اسم المقياس مناسب. ففي النهاية، يعثر هذا المقياس على متوسط قيم متوسط الدقة عند k المتعددة.

انقر على الرمز للاطّلاع على مثال.

لنفترض أنّك أنشأت نظام اقتراحات يقدّم قائمة مخصّصة بأفضل الروايات المقترَحة لكل مستخدم. استنادًا إلى الملاحظات الواردة من المستخدمين المحدّدين، يمكنك حساب خمسة من متوسطات مقياس صحة النموذج عند k (تقييم واحد لكل مستخدم):

0.73
0.77
0.67
0.82
0.76

وبالتالي، فإنّ متوسّط الدقة عند K هو:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

الخطأ التربيعي المتوسّط (MSE)

#Metric

متوسط الخسارة لكل مثال عند استخدام خسارة ₂ احسب الخطأ التربيعي المتوسّط على النحو التالي:

احسب خسارة L₂ لمجموعة.
قسِّم خسارة L₂ على عدد الأمثلة في المجموعة.

انقر على الرمز للاطّلاع على الرياضيات الرسمية.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ حيث:

$n$ هو عدد الأمثلة.
$y$ هي القيمة الفعلية للتصنيف.
$\hat{y}$ هي القيمة التي يتوقّعها النموذج لـ $y$.

على سبيل المثال، لنفترض أنّك تريد حساب الخسارة في المجموعة التالية المكوّنة من خمسة أمثلة:

القيمة الفعلية	توقّعات النموذج	فقدان البيانات	الخسارة التربيعية
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			‫16 = L₂ خسارة

وبالتالي، يكون الخطأ التربيعي المتوسّط كما يلي:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

الخطأ التربيعي المتوسّط هو مُحسِّن شائع للتدريب، خاصةً في الانحدار الخطي.

قارِن بين "الخطأ التربيعي المتوسّط" و"متوسط الخطأ المطلق" و"جذر الخطأ التربيعي المتوسّط".

تستخدم TensorFlow Playground الخطأ التربيعي المتوسّط لاحتساب قيم الخسارة.

انقر على الرمز للاطّلاع على مزيد من التفاصيل حول القيم الشاذة.

تؤثر القيم الشاذة بشكل كبير في الخطأ التربيعي المتوسّط. على سبيل المثال، إذا كانت الخسارة 1، تكون الخسارة التربيعية 1، ولكن إذا كانت الخسارة 3، تكون الخسارة التربيعية 9. في الجدول السابق، يمثّل المثال الذي يتضمّن خسارة 3 حسابات حوالي% 56 من الخطأ التربيعي المتوسّط، بينما يمثّل كل مثال يتضمّن خسارة حساب واحد% 6 فقط من الخطأ التربيعي المتوسّط.

لا تؤثر القيم الشاذة في متوسّط الخطأ المطلق بنفس درجة تأثيرها في الخطأ التربيعي المتوسّط. على سبيل المثال، يؤدي فقدان 3 حسابات إلى خطأ مطلق متوسط بنسبة% 38 تقريبًا.

التقطيع هو إحدى الطرق لمنع القيم الشاذّة من التأثير سلبًا في قدرة النموذج على التوقّع.

شبكة متداخلة

#TensorFlow

#GoogleCloud

في البرمجة المتوازية لتعلُّم الآلة، يشير هذا المصطلح إلى عملية ربط البيانات والنموذج بشرائح TPU، وتحديد كيفية تقسيم هذه القيم أو تكرارها.

الشبكة هي مصطلح مُحمّل بشكل زائد يمكن أن يعني أيًا مما يلي:

تخطيط مادي لشرائح TPU
بنية منطقية مجرّدة لربط البيانات والنموذج بشرائح TPU.

في كلتا الحالتين، يتم تحديد الشبكة على أنّها شكل.

التعلم الفائق

مجموعة فرعية من تعلُّم الآلة تكتشف خوارزمية تعلُّم أو تحسّنها. يمكن أن يهدف نظام التعلّم الفائق أيضًا إلى تدريب نموذج لتعلُّم مهمة جديدة بسرعة من كمية صغيرة من البيانات أو من الخبرة المكتسبة في المهام السابقة. تحاول خوارزميات التعلّم الفائق بشكل عام تحقيق ما يلي:

تحسين الميزات المصمَّمة يدويًا أو التعرّف عليها (مثل أداة تهيئة أو أداة تحسين)
أن تكون أكثر كفاءة في استخدام البيانات والحوسبة
تحسين التعميم

يرتبط التعلّم الفائق بالتعلّم ببضع فُرَص.

المقياس

#TensorFlow

#Metric

إحصاء يهمّك

الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.

Metrics API (tf.metrics)

#Metric

واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، تحدّد tf.metrics.accuracy عدد المرات التي تتطابق فيها توقّعات النموذج مع التصنيفات.

دفعة صغيرة

#fundamentals

مجموعة فرعية صغيرة يتم اختيارها عشوائيًا من دفعة تتم معالجتها في تكرار واحد. يتراوح حجم الدفعة للدفعة المصغّرة عادةً بين 10 و1,000 مثال.

على سبيل المثال، لنفترض أنّ مجموعة التدريب بأكملها (المجموعة الكاملة) تتألف من 1,000 مثال. لنفترض أيضًا أنّك ضبطت حجم الدفعة لكل دفعة صغيرة على 20. لذلك، تحدّد كل تكرار مقدار الخسارة في 20 مثالاً عشوائيًا من بين 1,000 مثال، ثم تعدّل الأوزان والانحيازات وفقًا لذلك.

من الأسهل بكثير حساب الخسارة على مجموعة مصغّرة من البيانات مقارنةً بحساب الخسارة على جميع الأمثلة في المجموعة الكاملة.

نزول متدرّج عشوائي ضمن دفعة صغيرة

خوارزمية النزول المتدرّج التي تستخدم دُفعات صغيرة. بعبارة أخرى، يقدّر النزول المتدرّج العشوائي ضمن دفعة صغيرة الانحدار استنادًا إلى مجموعة فرعية صغيرة من بيانات التدريب. تستخدم طريقة النزول المتدرّج العشوائي العادية دفعة صغيرة بحجم 1.

دالة الخسارة القصوى الدنيا

#Metric

هي دالة خسارة لشبكات الخصومة التوليدية، تستند إلى الإنتروبيا المتقاطعة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية.

تم استخدام دالة الخسارة Minimax في الورقة البحثية الأولى لوصف الشبكات التوليدية الخصومية.

يمكنك الاطّلاع على دوالّ الخسارة في دورة الشبكات الخصومية التوليدية للحصول على مزيد من المعلومات.

الفئة الأقلية

#fundamentals

الوسم الأقل شيوعًا في مجموعة بيانات غير متوازنة الفئات. على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على% 99 من التصنيفات السلبية و% 1 من التصنيفات الإيجابية، تكون التصنيفات الإيجابية هي الفئة الأقلية.

التباين مع الفئة الأكبر

انقر على الرمز للاطّلاع على ملاحظات إضافية.

قد تبدو مجموعة التدريب التي تتضمّن مليون مثال أمرًا مثيرًا للإعجاب. ومع ذلك، إذا كانت الفئة الأقل تمثيلاً ممثَّلة بشكل سيئ، قد لا تكون مجموعة التدريب الكبيرة جدًا كافية. ركِّز بشكل أقل على إجمالي عدد الأمثلة في مجموعة البيانات، وبشكل أكبر على عدد الأمثلة في الفئة الأقل تمثيلاً.

إذا كانت مجموعة البيانات لا تحتوي على أمثلة كافية من الفئة الأقل تمثيلاً، ننصحك باستخدام التقليل من عدد العيّنات (التعريف في النقطة الثانية) لتكميل الفئة الأقل تمثيلاً.

mixture of experts

#generativeAI

هي طريقة تهدف إلى زيادة كفاءة الشبكة العصبية من خلال استخدام مجموعة فرعية فقط من مَعلماتها (المعروفة باسم الخبير) لمعالجة رمز إدخال أو مثال معيّن. توجّه شبكة البوابة كل رمز مميز أو مثال إلى الخبراء المناسبين.

للاطّلاع على التفاصيل، يُرجى الرجوع إلى إحدى الورقتَين التاليتَين:

تعلُّم الآلة

اختصار تعلُّم الآلة

MMIT

#generativeAI

الاختصار الخاص بـ النماذج المتعددة الوسائط التي تم ضبطها وفقًا للتعليمات

MNIST

مجموعة بيانات متاحة للجميع من إعداد "لوكون" و"كورتيس" و"بورغيس" تحتوي على 60,000 صورة، تعرض كل صورة كيف كتب شخص رقمًا معيّنًا يدويًا من 0 إلى 9. يتم تخزين كل صورة كمصفوفة 28x28 من الأعداد الصحيحة، حيث كل عدد صحيح هو قيمة تدرّج الرمادي بين 0 و255، بما في ذلك هذين الرقمين.

‫MNIST هي مجموعة بيانات أساسية لتعلُّم الآلة، وغالبًا ما تُستخدَم لاختبار أساليب جديدة لتعلُّم الآلة. لمزيد من التفاصيل، يُرجى الاطّلاع على قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد.

النمط

فئة بيانات ذات مستوى عالٍ على سبيل المثال، الأرقام والنصوص والصور والفيديوهات والمقاطع الصوتية هي خمسة أنواع مختلفة من البيانات.

نموذج

#fundamentals

بشكل عام، أي صيغة رياضية تعالج البيانات المدخلة وتعرض الناتج. بعبارة أخرى، النموذج هو مجموعة المَعلمات والبنية اللازمة لنظام ما من أجل إجراء التوقعات. في تعلُّم الآلة الموجَّه، يتلقّى النموذج مثالاً كمدخل ويستنتج توقّعًا كمخرج. تختلف النماذج بعض الشيء ضمن تعلُّم الآلة الموجَّه. على سبيل المثال:

يتألف نموذج الانحدار الخطي من مجموعة من الأوزان والانحياز.
يتألف نموذج الشبكة العصبونية مما يلي:
- مجموعة من الطبقات المخفية، تحتوي كل منها على عصبون واحد أو أكثر
- الأوزان والانحياز المرتبط بكل عصبون
يتكوّن نموذج شجرة القرار مما يلي:
- شكل الشجرة، أي النمط الذي يتم فيه ربط الشروط والأوراق.
- الشروط والإجازات

يمكنك حفظ نموذج أو استعادته أو إنشاء نُسخ منه.

تؤدي عملية تعلُّم الآلة غير المراقَب أيضًا إلى إنشاء نماذج، وهي عادةً عبارة عن دالة يمكنها ربط مثال إدخال بالمجموعة الأنسب.

انقر على الرمز لمقارنة الدوال الجبرية ودوال البرمجة بنماذج تعلُّم الآلة.

الدالة الجبرية، مثل ما يلي، هي نموذج:

  f(x, y) = 3x -5xy + y² + 17

تربط الدالة السابقة قيم الإدخال (x وy) بقيمة الإخراج.

وبالمثل، فإنّ دالة البرمجة التالية هي أيضًا نموذج:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

يمرّر المستدعي وسيطات إلى دالة Python السابقة، وتنتج دالة Python مخرجات (عبر عبارة return).

على الرغم من أنّ الشبكة العصبية العميقة تتضمّن بنية رياضية مختلفة تمامًا عن الدالة الجبرية أو دالة البرمجة، إلا أنّ الشبكة العصبية العميقة لا تزال تتلقّى مدخلات (مثالاً) وتعرض مخرجات (توقّعًا).

يُنشئ مبرمج بشري رمزًا لوظيفة برمجة يدويًا. في المقابل، يتعلّم نموذج تعلُّم الآلة تدريجيًا المَعلمات المثالية أثناء التدريب الآلي.

سعة النموذج

#Metric

مدى تعقيد المشاكل التي يمكن أن يتعلّمها النموذج وكلما زادت درجة تعقيد المشاكل التي يمكن أن يتعلّمها النموذج، زادت قدرته. تزداد سعة النموذج عادةً مع عدد مَعلمات النموذج. للحصول على تعريف رسمي لقدرة نموذج التصنيف، يُرجى الاطّلاع على سمة VC.

التسلسل الهرمي للنماذج

#generativeAI

نظام يختار النموذج المثالي لاستعلام استنتاج معيّن.

لنفترض أنّ لدينا مجموعة من النماذج تتراوح بين نماذج كبيرة جدًا (تحتوي على الكثير من المَعلمات) ونماذج أصغر بكثير (تحتوي على عدد أقل بكثير من المَعلمات). تستهلك النماذج الكبيرة جدًا موارد حوسبة أكبر في وقت الاستدلال مقارنةً بالنماذج الأصغر. ومع ذلك، يمكن للنماذج الكبيرة جدًا عادةً استنتاج طلبات أكثر تعقيدًا من النماذج الأصغر. يحدد تسلسل النماذج مدى تعقيد طلب الاستنتاج، ثم يختار النموذج المناسب لتنفيذ الاستنتاج. الهدف الأساسي من استخدام النماذج المتتالية هو تقليل تكاليف الاستدلال من خلال اختيار نماذج أصغر بشكل عام، واختيار نموذج أكبر للاستعلامات الأكثر تعقيدًا فقط.

لنفترض أنّ نموذجًا صغيرًا يعمل على هاتف، وأنّ إصدارًا أكبر من هذا النموذج يعمل على خادم بعيد. يؤدي التتالي الجيد للنماذج إلى خفض التكلفة ووقت الاستجابة من خلال السماح للنموذج الأصغر بمعالجة الطلبات البسيطة واستدعاء النموذج البعيد لمعالجة الطلبات المعقّدة فقط.

يمكنك الاطّلاع أيضًا على موجه النماذج.

التوازي على مستوى النموذج

طريقة لتوسيع نطاق التدريب أو الاستدلال من خلال وضع أجزاء مختلفة من نموذج واحد على أجهزة مختلفة تتيح ميزة "التوازي بين النماذج" استخدام نماذج كبيرة جدًا لا يمكن استيعابها على جهاز واحد.

لتنفيذ التوازي بين النماذج، ينفّذ النظام عادةً ما يلي:

تقسيم النموذج إلى أجزاء أصغر
توزّع تدريب هذه الأجزاء الأصغر على معالِجات متعددة. يدرّب كل معالج جزءًا خاصًا به من النموذج.
يجمع النتائج لإنشاء نموذج واحد.

يؤدي التوازي بين النماذج إلى إبطاء عملية التدريب.

يمكنك الاطّلاع أيضًا على التوازي بين البيانات.

نموذج جهاز التوجيه

#generativeAI

الخوارزمية التي تحدّد النموذج المثالي للاستدلال في النماذج المتتالية عادةً ما يكون موجّه النماذج نموذجًا لتعلُّم الآلة يتعلّم تدريجيًا كيفية اختيار أفضل نموذج لبيانات إدخال معيّنة. في المقابل، قد يكون موجه النماذج في بعض الأحيان خوارزمية أبسط لا تستند إلى تعلُّم الآلة.

تدريب النموذج

عملية تحديد النموذج الأفضل

MOE

#generativeAI

اختصار مزيج الخبراء

الزخم

خوارزمية متطورة للنزول التدرّجي تعتمد فيها خطوة التعلّم ليس فقط على المشتق في الخطوة الحالية، ولكن أيضًا على مشتقات الخطوات التي سبقتها مباشرةً. تتضمّن طريقة "الزخم" احتساب متوسط متحرك مرجّح أُسّيًا للتدرّجات بمرور الوقت، وهو ما يشبه الزخم في الفيزياء. يمنع الزخم أحيانًا التعلّم من أن يعلق في الحد الأدنى المحلي.

Mostly Basic Python Problems (MBPP)

#Metric

مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في إنشاء رمز Python البرمجي يوفّر موقع Mostly Basic Python Problems حوالي 1,000 مشكلة برمجة من مصادر جماعية. يحتوي كل سؤال في مجموعة البيانات على ما يلي:

وصف المهمة
رمز الحلّ
ثلاث حالات اختبار مبرمَجة

MT

#generativeAI

اختصار الترجمة الآلية

التعاون بين وكلاء متعددين

#agent

إطار عمل يتفاعل فيه عدّة وكلاء ذكاء اصطناعي متخصّصين أو يتناقشون أو يتبادلون المهام لحلّ مشكلة معقّدة

التصنيف المتعدّد الفئات

#fundamentals

في التعلّم المُوجّه، تكون هناك مشكلة تصنيف حيث تحتوي مجموعة البيانات على أكثر من فئتَين من التصنيفات. على سبيل المثال، يجب أن تكون التصنيفات في مجموعة بيانات Iris إحدى الفئات الثلاث التالية:

Iris setosa
Iris virginica
Iris versicolor

النموذج الذي تم تدريبه على مجموعة بيانات Iris والذي يتوقّع نوع Iris استنادًا إلى أمثلة جديدة، يؤدي عملية تصنيف متعدد الفئات.

في المقابل، فإنّ مشاكل التصنيف التي تميّز بين فئتَين فقط هي نماذج تصنيف ثنائي. على سبيل المثال، نموذج البريد الإلكتروني الذي يتوقّع ما إذا كانت الرسالة غير مرغوب فيها أو مرغوب فيها هو نموذج تصنيف ثنائي.

في مشاكل التجميع، يشير التصنيف المتعدد الفئات إلى أكثر من مجموعتين.

الانحدار اللوجستي المتعدد الفئات

استخدام الانحدار اللوجستي في مشاكل التصنيف المتعدد الفئات

الاهتمام الذاتي المتعدد الرؤوس

هي امتداد لآلية الاهتمام الذاتي التي تطبّق آلية الاهتمام الذاتي عدة مرات لكل موضع في التسلسل المدخل.

قدّمت المحوّلات آلية الانتباه الذاتي المتعدد الرؤوس.

متعدد الوسائط ومعدَّل حسب التعليمات

النموذج المضبوط على التعليمات هو نموذج يمكنه معالجة أنواع من الإدخالات تتجاوز النصوص، مثل الصور والفيديوهات والمقاطع الصوتية.

النموذج المتعدد الوسائط

نموذج تتضمّن مدخلاته أو مخرجاته أو كليهما أكثر من طريقة. على سبيل المثال، لنفترض أنّ هناك نموذجًا يتضمّن صورة وتعليقًا نصيًا (نوعان من البيانات) كميزات، ويعرض نتيجة تشير إلى مدى ملاءمة التعليق النصي للصورة. لذلك، تكون مدخلات هذا النموذج متعددة الوسائط ويكون الناتج أحادي الوسائط.

تصنيف متعدّد الفئات

مرادف للتصنيف المتعدّد الفئات

الانحدار المتعدد الحدود

مرادف الانحدار اللوجستي المتعدد الفئات

Multi-sentence Reading Comprehension (MultiRC)

مجموعة بيانات لتقييم قدرة نموذج اللغة الكبير على الإجابة عن تمارين الخيارات المتعدّدة يحتوي كل مثال في مجموعة البيانات على ما يلي:

فقرة سياقية
سؤال حول تلك الفقرة
تمثّل هذه السمة إجابات متعدّدة عن السؤال. يتم تصنيف كل إجابة على أنّها صحيحة أو خاطئة. قد تكون إجابات متعدّدة صحيحة.

على سبيل المثال:

فقرة السياق:

أرادت سوزان إقامة حفلة عيد ميلاد. اتصلت بجميع أصدقائها. لديها خمسة أصدقاء. قالت والدتها إنّ بإمكان سوزان دعوة الجميع إلى الحفلة. لم تتمكّن صديقتها الأولى من الذهاب إلى الحفلة لأنّها كانت مريضة. كانت صديقتها الثانية ستسافر. لم تكن صديقتها الثالثة متأكدة مما إذا كان والداها سيسمحان لها بذلك. أجاب الصديق الرابع بـ "ربما". يمكن للصديق الخامس الذهاب إلى الحفلة بالتأكيد. شعرت سوزان ببعض الحزن. في يوم الحفلة، حضر الأصدقاء الخمسة جميعًا. أحضر كل صديق هدية لسوزان. كانت سوزان سعيدة وأرسلت إلى كل صديق بطاقة شكر في الأسبوع التالي.
السؤال: هل تعافى صديق سوزان المريض؟
إجابات متعدّدة:
- نعم، تعافت. (صحيح)
- لا (خطأ)
- نعم. (صحيح)
- لا، لم تتعافَ. (خطأ)
- نعم، كانت في حفلة سوزان. (صحيح)

‫MultiRC هي أحد مكوّنات مجموعة SuperGLUE.

لمزيد من التفاصيل، يُرجى الاطّلاع على Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences.

تنفيذ مهام متعددة

إحدى تقنيات تعلُّم الآلة التي يتم فيها تدريب نموذج واحد لتنفيذ عدة مهام.

يتم إنشاء نماذج المهام المتعددة من خلال التدريب على بيانات مناسبة لكل مهمة من المهام المختلفة. يتيح ذلك للنموذج تعلُّم كيفية مشاركة المعلومات بين المهام، ما يساعده على التعلّم بشكل أكثر فعالية.

النموذج المُدرَّب على مهام متعددة غالبًا ما يتمتع بقدرات تعميم محسّنة ويمكن أن يكون أكثر فعالية في التعامل مع أنواع مختلفة من البيانات.

لا

Nano

#generativeAI

نموذج Gemini صغير نسبيًا مصمَّم للاستخدام على الجهاز فقط. لمزيد من التفاصيل، يمكنك الاطّلاع على Gemini Nano.

يمكنك أيضًا الاطّلاع على Pro وUltra.

فخ القيم غير المعرَّفة كأرقام

عندما يصبح أحد الأرقام في النموذج NaN أثناء التدريب، يؤدي ذلك إلى أن تصبح العديد من الأرقام الأخرى في النموذج أو جميعها في النهاية NaN.

NaN هو اختصار ليس رقمًا.

معالجة اللغات الطبيعية

هو مجال يهدف إلى تعليم أجهزة الكمبيوتر كيفية معالجة ما يقوله المستخدم أو يكتبه باستخدام قواعد لغوية. تعتمد جميع عمليات معالجة اللغات الطبيعية الحديثة تقريبًا على تعلُّم الآلة.

فهم اللغات الطبيعية

مجموعة فرعية من معالجة اللغات الطبيعية تحدّد النوايا من الكلام أو الكتابة. يمكن أن يتجاوز فهم اللغات الطبيعية معالجة اللغات الطبيعية ليشمل جوانب معقّدة من اللغة، مثل السياق والسخرية والمشاعر.

فئة سالبة

#fundamentals

#Metric

في التصنيف الثنائي، يُطلق على إحدى الفئتَين اسم إيجابية ويُطلق على الأخرى اسم سلبية. الفئة الإيجابية هي الشيء أو الحدث الذي يختبره النموذج، والفئة السلبية هي الاحتمال الآخر. على سبيل المثال:

قد تكون الفئة السلبية في اختبار طبي هي "ليس ورمًا".
قد تكون الفئة السلبية في نموذج تصنيف الرسائل الإلكترونية هي "ليست رسالة غير مرغوب فيها".

يجب التمييز بينها وبين الفئة الموجبة.

أخذ العيّنات السلبية

مرادف تحليل العينات المُحتملة

Neural Architecture Search (NAS)

إحدى التقنيات التي تتيح تصميم بنية شبكة عصبية تلقائيًا. يمكن أن تقلّل خوارزميات NAS مقدار الوقت والموارد اللازمة لتدريب شبكة عصبية.

تستخدم أجهزة NAS عادةً ما يلي:

مساحة البحث، وهي مجموعة من التصاميم المحتملة
دالة لياقة، وهي مقياس لمدى جودة أداء بنية معيّنة في مهمة محدّدة

غالبًا ما تبدأ خوارزميات NAS بمجموعة صغيرة من التصاميم المحتملة، ثم توسّع تدريجيًا مساحة البحث مع تعلّم الخوارزمية المزيد عن التصاميم الفعّالة. تستند دالة اللياقة البدنية عادةً إلى أداء البنية على مجموعة تدريب، ويتم عادةً تدريب الخوارزمية باستخدام أسلوب التعلم المعزّز.

وقد أثبتت خوارزميات NAS فعاليتها في العثور على بنى عالية الأداء لمجموعة متنوعة من المهام، بما في ذلك تصنيف الصور وتصنيف النصوص والترجمة الآلية.

شبكة عصبونية

#fundamentals

نموذج يحتوي على طبقة مخفية واحدة على الأقل. الشبكة العصبية العميقة هي نوع من الشبكات العصبية يحتوي على أكثر من طبقة مخفية واحدة. على سبيل المثال، يعرض المخطط التالي شبكة عصبية عميقة تحتوي على طبقتَين مخفيتَين.

شبكة عصبية تتضمّن الطبقة الأولى وطبقتَين مخفيتَين والطبقة النهائية

يتصل كل عصبون في الشبكة العصبية بجميع العُقد في الطبقة التالية. على سبيل المثال، في الرسم البياني السابق، لاحظ أنّ كل عصبون من الأعصاب الثلاثة في الطبقة المخفية الأولى يرتبط بشكل منفصل بكل من العصبونين في الطبقة المخفية الثانية.

تُعرف الشبكات العصبونية التي يتم تنفيذها على أجهزة الكمبيوتر أحيانًا باسم الشبكات العصبونية الاصطناعية للتمييز بينها وبين الشبكات العصبونية الموجودة في الدماغ والجهاز العصبي.

يمكن لبعض الشبكات العصبية محاكاة العلاقات غير الخطية المعقّدة للغاية بين الميزات المختلفة والتصنيف.

راجِع أيضًا الشبكة العصبونية الالتفافية والشبكة العصبونية المتكرّرة.

يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.

عصبون

#fundamentals

في تعلُّم الآلة، هي وحدة مميّزة ضمن طبقة مخفية في شبكة عصبونية. تنفّذ كل خلية عصبية الإجراء المكوّن من خطوتَين التاليتَين:

تحسب هذه الدالة المجموع المرجّح لقيم الإدخال مضروبة في الأوزان المقابلة.
تمرِّر المجموع المرجّح كمدخل إلى دالة التنشيط.

تقبل إحدى الخلايا العصبية في الطبقة المخفية الأولى مدخلات من قيم الميزات في طبقة الإدخال. تتلقّى الخلية العصبية في أي طبقة مخفية بعد الطبقة الأولى مدخلات من الخلايا العصبية في الطبقة المخفية السابقة. على سبيل المثال، تقبل إحدى الخلايا العصبية في الطبقة المخفية الثانية المدخلات من الخلايا العصبية في الطبقة المخفية الأولى.

توضّح الصورة التالية خليتَين عصبيتين ومدخلاتهما.

شبكة عصبية تتضمّن الطبقة الأولى وطبقتَين مخفيتَين والطبقة النهائية يتم تمييز خليتَين عصبية: واحدة في الطبقة المخفية الأولى والأخرى في الطبقة المخفية الثانية. تتلقّى الخلية العصبية المميّزة في الطبقة المخفية الأولى مدخلات من كلتا الميزتين في طبقة الإدخال. تتلقّى الخلية العصبية المميّزة في الطبقة المخفية الثانية مدخلات من كل من الخلايا العصبية الثلاث في الطبقة المخفية الأولى.

تحاكي الخلية العصبية في الشبكة العصبونية سلوك الخلايا العصبية في الدماغ وأجزاء أخرى من الجهاز العصبي.

N-gram

تسلسل مُرتب من N كلمة على سبيل المثال، بجنون هي ثنائية كلمات. بما أنّ الترتيب مهم، فإنّ madly truly هي ثنائية مختلفة عن truly madly.

لا	أسماء هذا النوع من وحدات N-gram	أمثلة
2	ثنائي الحروف أو ثنائي الأجزاء	الذهاب إلى، تناول الغداء، تناول العشاء
3	ثلاثي الحروف أو 3-غرام	أكلتُ كثيرًا، وعشتُ بسعادة أبدية، ودقّت الأجراس
4	4-gram	walk in the park, dust in the wind, the boy ate lentils

تعتمد العديد من نماذج فهم اللغة الطبيعية على N-grams لتوقّع الكلمة التالية التي سيكتبها المستخدم أو سيقولها. على سبيل المثال، لنفترض أنّ أحد المستخدمين كتب عاشا بسعادة. من المرجّح أن يتوقّع نموذج فهم اللغة الطبيعية المستند إلى ثلاثيات الحروف أنّ المستخدم سيكتب الكلمة بعد.

تختلف N-grams عن حقيبة الكلمات، وهي مجموعات غير مرتبة من الكلمات.

يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

معالجة اللغات الطبيعية

اختصار معالجة اللغات الطبيعية

فهم اللغات الطبيعية

اختصار فهم اللغات الطبيعية

عقدة (شجرة القرار)

#df

في شجرة القرار، أي شرط أو عقدة طرفية

شجرة قرارات تتضمّن شرطَين وثلاثة فروع نهائية

يمكنك الاطّلاع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

عقدة (شبكة عصبونية)

#fundamentals

عصبون في طبقة مخفية

يمكنك الاطّلاع على الشبكات العصبونية في "دورة مكثّفة عن تعلّم الآلة" لمزيد من المعلومات.

عقدة (الرسم البياني في TensorFlow)

#TensorFlow

عملية في رسم بياني في TensorFlow

الضجيج

بشكل عام، أي شيء يحجب الإشارة في مجموعة البيانات. يمكن إدخال التشويش إلى البيانات بعدة طرق. على سبيل المثال:

يقع المقيمون في أخطاء أثناء تصنيف المحتوى.
يسجّل البشر والأدوات قيم السمات بشكل خاطئ أو يحذفونها.

حالة غير ثنائية

#df

شرط يحتوي على أكثر من نتيجتَين محتملتَين. على سبيل المثال، يتضمّن الشرط غير الثنائي التالي ثلاث نتائج محتملة:

شرط (عدد_الأرجل = ?) يؤدي إلى ثلاث نتائج محتملة تؤدي إحدى النتائج (number_of_legs = 8) إلى ورقة
تُسمى spider. تؤدي النتيجة الثانية (number_of_legs = 4) إلى
عقدة فرعية باسم dog. تؤدي النتيجة الثالثة (number_of_legs = 2) إلى
عقدة فرعية باسم penguin.

اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.

غير حتمية

نظام لا يضمن عرض النتيجة نفسها عند تكرار الطلبات نفسها. النماذج اللغوية الكبيرة غير حتمية بشكل عام، أي أنّها تنشئ عادةً ردودًا مختلفة على الطلب نفسه.

بشكل عام، يصعب اختبار الأنظمة غير الحتمية أكثر من الأنظمة الحتمية.

يمكنك الاطّلاع أيضًا على احتمالية.

غير خطي

#fundamentals

يشير ذلك المصطلح إلى علاقة بين متغيّرَين أو أكثر لا يمكن تمثيلها فقط من خلال الجمع والضرب. يمكن تمثيل العلاقة الخطية بخط، بينما لا يمكن تمثيل العلاقة غير الخطية بخط. على سبيل المثال، لنفترض أنّ لديك نموذجين يرتبط كل منهما بميزة واحدة وتصنيف واحد. النموذج على اليمين خطي، والنموذج على اليسار غير خطي:

مخطّطان أحد المخططات هو خط، لذا فهذه علاقة خطية.
الرسم البياني الآخر هو منحنى، لذا هذه علاقة غير خطية.

راجِع الشبكات العصبية: العُقد والطبقات المخفية في "دورة مكثّفة عن تعلّم الآلة" لتجربة أنواع مختلفة من الدوال غير الخطية.

الانحياز لعدم الإجابة

#responsible

اطّلِع على الانحياز في الاختيار.

عدم الثبات

#fundamentals

سمة تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون هذه السمة هي الوقت. على سبيل المثال، إليك بعض الأمثلة على عدم الثبات:

يختلف عدد ملابس السباحة التي يتم بيعها في متجر معيّن حسب الموسم.
كمية الفاكهة المعيّنة التي يتم حصادها في منطقة معيّنة تكون صفرًا خلال معظم أوقات السنة، ولكنها تكون كبيرة لفترة قصيرة.
بسبب تغيّر المناخ، تتغيّر متوسطات درجات الحرارة السنوية.

تتعارض مع الثبات.

لا توجد إجابة صحيحة واحدة (NORA)

#generativeAI

طلب يتضمّن عدة ردود صحيحة على سبيل المثال، لا يوجد إجابة صحيحة واحدة للطلب التالي:

أريد سماع نكتة مضحكة عن الأفيال.

تقييم الردود على الأسئلة التي لا تتضمّن إجابة صحيحة واحدة يكون عادةً أكثر ذاتية من تقييم الأسئلة التي تتضمّن إجابة صحيحة واحدة. على سبيل المثال، يتطلّب تقييم نكتة عن الفيل طريقة منهجية لتحديد مدى طرافتها.

NORA

#generativeAI

اختصار لا توجد إجابة صحيحة واحدة

التسوية

#fundamentals

بشكل عام، تشير إلى عملية تحويل النطاق الفعلي لقيم أحد المتغيّرات إلى نطاق قياسي من القيم، مثل:

من ‎-1 إلى ‎+1
من 0 إلى 1
الدرجات المعيارية (من -3 إلى +3 تقريبًا)

على سبيل المثال، لنفترض أنّ النطاق الفعلي لقيم ميزة معيّنة هو 800 إلى 2,400. كجزء من هندسة الخصائص، يمكنك تسوية القيم الفعلية إلى نطاق عادي، مثل من -1 إلى +1.

التسوية هي مهمة شائعة في هندسة الخصائص. تتدرب النماذج عادةً بشكل أسرع (وتنتج توقعات أفضل) عندما يكون لكل ميزة رقمية في متّجه الميزات النطاق نفسه تقريبًا.

راجِع أيضًا التسوية باستخدام الدرجة المعيارية.

لمزيد من المعلومات، راجِع البيانات الرقمية: التسوية في "دورة مكثّفة عن تعلّم الآلة".

NotebookLM

#generativeAI

أداة مستندة إلى Gemini تتيح للمستخدمين تحميل المستندات ثم استخدام الطلبات لطرح أسئلة حول هذه المستندات أو تلخيصها أو تنظيمها. على سبيل المثال، يمكن لمؤلف تحميل عدة قصص قصيرة والطلب من NotebookLM العثور على المواضيع المشتركة بينها أو تحديد القصة التي يمكن تحويلها إلى فيلم.

رصد الحالات الجديدة

عملية تحديد ما إذا كان مثال جديد (مبتكر) يأتي من التوزيع نفسه الذي تأتي منه مجموعة التدريب بمعنى آخر، بعد التدريب على مجموعة التدريب، يحدّد رصد الحالات الجديدة ما إذا كان المثال الجديد (أثناء الاستدلال أو أثناء التدريب الإضافي) قيمة متطرفة.

التباين مع رصد القيم الشاذة

البيانات الرقمية

#fundamentals

الميزات الممثَّلة كأعداد صحيحة أو أرقام ذات قيم حقيقية على سبيل المثال، من المحتمل أن يعرض نموذج تقييم منزل مساحة المنزل (بالقدم المربع أو المتر المربع) كبيانات بالأرقام. يشير تمثيل إحدى السمات كبيانات بالأرقام إلى أنّ قيم السمة لها علاقة رياضية بالتصنيف. أي أنّ عدد الأمتار المربعة في المنزل يرتبط على الأرجح رياضيًا بقيمة المنزل.

لا يجب تمثيل جميع بيانات الأعداد الصحيحة كبيانات بالأرقام. على سبيل المثال، الرموز البريدية في بعض أنحاء العالم هي أعداد صحيحة، ولكن لا يجب تمثيل الرموز البريدية التي تتضمّن أعدادًا صحيحة كبيانات بالأرقام في النماذج. ذلك لأنّ الرمز البريدي 20000 ليس ضعف (أو نصف) فعالية الرمز البريدي 10000. بالإضافة إلى ذلك، على الرغم من أنّ الرموز البريدية المختلفة مرتبطة بقيم مختلفة للعقارات، لا يمكننا افتراض أنّ قيم العقارات في الرمز البريدي 20000 هي ضعف قيم العقارات في الرمز البريدي 10000. بدلاً من ذلك، يجب تمثيل الرموز البريدية على أنّها بيانات فئوية.

يُطلق على الميزات الرقمية أحيانًا اسم الميزات المستمرة.

لمزيد من المعلومات، راجِع التعامل مع البيانات الرقمية في "دورة مكثّفة عن تعلّم الآلة".

NumPy

مكتبة رياضية مفتوحة المصدر توفّر عمليات فعّالة على الصفائف في Python، وتم إنشاء مكتبة pandas استنادًا إلى NumPy.

O

هدف

#Metric

مقياس تحاول الخوارزمية تحسينه.

دالة الهدف

#Metric

الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، تكون دالة الهدف في الانحدار الخطي عادةً متوسط الخطأ التربيعي. لذلك، عند تدريب نموذج انحدار خطي، يهدف التدريب إلى تقليل متوسط الخطأ التربيعي.

في بعض الحالات، يكون الهدف هو زيادة دالة الهدف إلى أقصى حد. على سبيل المثال، إذا كانت دالة الهدف هي الدقة، يكون الهدف هو زيادة الدقة إلى أقصى حد.

يمكنك الاطّلاع أيضًا على الخسارة.

الشرط المائل

#df

في شجرة القرار، شرط يتضمّن أكثر من ميزة. على سبيل المثال، إذا كان الارتفاع والعرض كلاهما من السمات، يكون الشرط التالي شرطًا مائلاً:

  height > width

يجب التمييز بينها وبين الشرط المتوافق مع المحور.

اطّلِع على أنواع الشروط في دورة "أشجار القرار" للحصول على مزيد من المعلومات.

مراقبة

#agent

مرحلة في حلقة الوكيل يفحص فيها الوكيل أو يقيّم جانبًا من جوانب تقدّمه. على سبيل المثال، لنفترض أنّ مرحلة التنفيذ تنشئ بعض الرموز. نتيجةً لذلك، قد تنفّذ مرحلة المراقبة اختبارات على الرمز البرمجي الذي تم إنشاؤه.

بلا إنترنت

#fundamentals

مرادف لكلمة ثابت

الاستنتاج المؤخَّر

#fundamentals

تشير إلى عملية إنشاء نموذج لمجموعة من التوقّعات ثم تخزين هذه التوقّعات مؤقتًا (حفظها). وبعد ذلك، يمكن للتطبيقات الوصول إلى التوقّع المستنتَج من ذاكرة التخزين المؤقت بدلاً من إعادة تشغيل النموذج.

على سبيل المثال، لنفترض أنّ هناك نموذجًا ينشئ توقّعات أحوال الطقس المحلية (توقّعات) مرة كل أربع ساعات. بعد كل عملية تشغيل للنموذج، يخزّن النظام مؤقتًا جميع توقّعات الطقس المحلية. تسترجع تطبيقات الطقس التوقعات من ذاكرة التخزين المؤقت.

يُطلق على الاستنتاج المؤخَّر أيضًا اسم الاستدلال الثابت.

يختلف ذلك عن الاستنتاج الحي. يمكنك الاطّلاع على أنظمة تعلُّم الآلة الخاصة بالإنتاج: الاستنتاج الثابت مقابل الاستنتاج الديناميكي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

الترميز الأحادي

#fundamentals

تمثيل البيانات الفئوية كمتّجه حيث:

يتم ضبط أحد العناصر على 1.
ويتم ضبط جميع العناصر الأخرى على 0.

يُستخدَم الترميز أحادي بشكل شائع لتمثيل السلاسل أو المعرّفات التي تتضمّن مجموعة محدودة من القيم المحتملة. على سبيل المثال، لنفترض أنّ هناك ميزة فئوية معيّنة باسم Scandinavia لها خمس قيم محتملة:

"الدنمارك"
"السويد"
"النرويج"
فنلندا ("Finland")
"آيسلندا"

يمكن أن يمثّل الترميز الأحادي الساخن كل قيمة من القيم الخمس على النحو التالي:

البلد	المتّجه
"الدنمارك"	1	0	0	0	0
"السويد"	0	1	0	0	0
"النرويج"	0	0	1	0	0
فنلندا ("Finland")	0	0	0	1	0
"آيسلندا"	0	0	0	0	1

بفضل الترميز الأحادي الساخن، يمكن للنموذج التعرّف على روابط مختلفة استنادًا إلى كل بلد من البلدان الخمسة.

تمثيل ميزة كبيانات بالأرقام هو بديل للترميز الأحادي. للأسف، لا يُعد تمثيل البلدان الإسكندنافية رقميًا خيارًا جيدًا. على سبيل المثال، ضع في اعتبارك التمثيل الرقمي التالي:

"الدنمارك" هي 0
"السويد" هي 1
‫"النرويج" هي 2
"فنلندا" هي 3
‫"آيسلندا" هي 4

باستخدام الترميز الرقمي، سيفسّر النموذج الأرقام الأولية رياضيًا وسيحاول التدريب على هذه الأرقام. ومع ذلك، لا يبلغ عدد سكان آيسلندا ضعف عدد سكان النرويج (أو نصفه)، لذا سيخلص النموذج إلى بعض الاستنتاجات الغريبة.

إجابة صحيحة واحدة (ORA)

#generativeAI

طلب يتضمّن إجابة صحيحة واحدة على سبيل المثال، فكِّر في الطلب التالي:

صواب أم خطأ: كوكب زحل أكبر من كوكب المريخ.

الرد الصحيح الوحيد هو صحيح.

يُرجى الرجوع إلى لا توجد إجابة صحيحة.

التعلُّم بفرصة واحدة

نهج لتعلُّم الآلة يُستخدم غالبًا لتصنيف العناصر، وهو مصمَّم لتعلُّم نموذج تصنيف فعّال من مثال تدريبي واحد.

يمكنك أيضًا الاطّلاع على التعلّم ببضع فُرَص والتعلّم بدون فُرَص.

التلقين بمثال واحد

#generativeAI

طلب يتضمّن مثالاً واحدًا يوضّح طريقة استجابة النموذج اللغوي الكبير. على سبيل المثال، يتضمّن الطلب التالي مثالاً واحدًا يوضّح للنموذج اللغوي الكبير كيفية الإجابة عن طلب بحث.

أجزاء من طلب واحد	ملاحظات
`ما هي العملة الرسمية للبلد المحدّد؟`	السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة
`فرنسا: يورو`	إليك مثالاً.
`الهند:`	طلب البحث الفعلي

قارِن بين الطلب لمرة واحدة والمصطلحات التالية:

التلقين بلا أمثلة
التلقين ببضع أمثلة

واحد-مقابل-الكل

#fundamentals

في مشكلة التصنيف التي تتضمّن N فئة، يكون الحل عبارة عن نموذج تصنيف ثنائي منفصل يتضمّن N فئة، أي نموذج تصنيف ثنائي لكل نتيجة محتملة. على سبيل المثال، إذا كان لديك نموذج يصنّف الأمثلة على أنّها حيوان أو نبات أو معدن، سيقدّم الحلّ الذي يعتمد على استراتيجية "واحد مقابل الكل" نماذج التصنيف الثنائي المنفصلة الثلاثة التالية:

حيوان أو ليس حيوانًا
خضار أو غير خضار
معدني مقابل غير معدني

online

#fundamentals

مرادف لكلمة ديناميكي

الاستنتاج الحي

#fundamentals

إنشاء توقعات عند الطلب على سبيل المثال، لنفترض أنّ تطبيقًا يمرّر بيانات إلى نموذج ويصدر طلبًا للحصول على توقع. يستجيب النظام الذي يستخدم الاستنتاج الحي للطلب من خلال تشغيل النموذج (وعرض التوقّع للتطبيق).

يختلف ذلك عن الاستنتاج المؤخَّر.

العملية (op)

#TensorFlow

في TensorFlow، أي إجراء ينشئ Tensor أو يعدّله أو يتلفه. على سبيل المثال، ضرب المصفوفات هو عملية تتلقّى موترَين كمدخلات وتنتج موترًا واحدًا كمخرجات.

Optax

مكتبة لمعالجة التدرّجات وتحسينها في JAX تسهّل Optax عملية البحث من خلال توفير وحدات أساسية يمكن إعادة دمجها بطرق مخصّصة لتحسين النماذج المَعلمية، مثل الشبكات العصبية العميقة. تشمل الأهداف الأخرى ما يلي:

توفير عمليات تنفيذ سهلة القراءة ومختبَرة جيدًا وفعّالة للمكوّنات الأساسية
تحسين الإنتاجية من خلال إتاحة إمكانية دمج المكوّنات ذات المستوى المنخفض في أدوات تحسين مخصّصة (أو مكوّنات أخرى لمعالجة التدرّج).
تسريع اعتماد الأفكار الجديدة من خلال تسهيل مساهمة أي شخص

مُحسِّن

هي تنفيذ محدّد لخوارزمية الانحدار التدريجي. تشمل أدوات التحسين الشائعة ما يلي:

AdaGrad، وهي اختصار لعبارة ADAptive GRADient descent (خوارزمية انحدار التدرّج التكيّفي).
‫Adam، وهو اختصار لعبارة ADAptive with Momentum

ORA

#generativeAI

الاختصار إجابة صحيحة واحدة

الانحياز للتشابه خارج المجموعة

#responsible

الميل إلى اعتبار أعضاء المجموعة الخارجية أكثر تشابهًا من أعضاء المجموعة الداخلية عند مقارنة المواقف والقيم والسمات الشخصية وغيرها من الخصائص يشير مصطلح داخل المجموعة إلى الأشخاص الذين تتفاعل معهم بانتظام، بينما يشير مصطلح خارج المجموعة إلى الأشخاص الذين لا تتفاعل معهم بانتظام. إذا أنشأت مجموعة بيانات من خلال الطلب من المشاركين تقديم سمات حول المجموعات الخارجية، قد تكون هذه السمات أقل دقة وأكثر نمطية من السمات التي يدرجها المشاركون للأشخاص في مجموعتهم الداخلية.

على سبيل المثال، قد يصف سكان ليليبوت منازل بعضهم البعض بتفصيل كبير، مع الإشارة إلى اختلافات بسيطة في الأساليب المعمارية والنوافذ والأبواب والأحجام. ومع ذلك، قد يزعم الأقزام أن جميع العمالقة يعيشون في منازل متطابقة.

الانحياز للتشابه خارج المجموعة هو شكل من أشكال الانحياز لتشابه المجموعة.

يمكنك أيضًا الاطّلاع على الانحياز لأفراد المجموعة.

رصد القيم الشاذة

عملية تحديد القيم الشاذة في مجموعة التدريب

يختلف ذلك عن رصد العناصر الجديدة.

الذي حقق أداءً مختلفًا

القيم البعيدة عن معظم القيم الأخرى في التعلّم الآلي، تُعدّ أي من الحالات التالية قيمًا شاذة:

إدخال بيانات تكون قيمها أكبر من 3 انحرافات معيارية تقريبًا عن المتوسط
الأوزان ذات القيم المطلقة العالية
القيم المتوقّعة البعيدة نسبيًا عن القيم الفعلية

على سبيل المثال، لنفترض أنّ widget-price هي إحدى ميزات طراز معيّن. لنفترض أنّ المتوسط widget-price هو 7 يورو مع انحراف معياري يبلغ 1 يورو. وبالتالي، فإنّ الأمثلة التي تحتوي على widget-price بقيمة 12 يورو أو 2 يورو ستُعتبر قيمًا متطرفة لأنّ كل سعر من هذين السعرين يبتعد بمقدار خمسة انحرافات معيارية عن المتوسط.

غالبًا ما تحدث القيم الشاذة بسبب أخطاء إملائية أو أخطاء أخرى في الإدخال. في حالات أخرى، لا تكون القيم الشاذة أخطاءً، فمن النادر أن تكون القيم بعيدة عن المتوسط بمقدار خمسة انحرافات معيارية، ولكن هذا ليس مستحيلاً.

تتسبب القيم الشاذة غالبًا في حدوث مشاكل في تدريب النماذج. القص هو إحدى طرق إدارة القيم الشاذة.

لمزيد من المعلومات، راجِع التعامل مع البيانات الرقمية في "دورة مكثّفة عن تعلّم الآلة".

التقييم خارج المجموعة (OOB)

#df

آلية لتقييم جودة غابة القرارات من خلال اختبار كل شجرة قرارات مقابل الأمثلة غير المستخدَمة أثناء التدريب على شجرة القرارات هذه. على سبيل المثال، في المخطّط البياني التالي، لاحظ أنّ النظام يدرب كل شجرة قرار على حوالي ثلثَي الأمثلة، ثم يقيّمها باستخدام الثلث المتبقي من الأمثلة.

غابة قرارات تتألف من ثلاث أشجار قرارات
تتدرّب إحدى شجرتَي القرارات على ثلثَي الأمثلة
ثم تستخدم الثلث المتبقي للتقييم خارج النطاق.
تتدرّب شجرة قرارات ثانية على ثلثَي الأمثلة المختلفة عن شجرة القرارات السابقة، ثم تستخدم ثلثًا مختلفًا لتقييم OOB عن شجرة القرارات السابقة.

التقييم خارج المجموعة هو تقريب محافظ وفعّال من الناحية الحسابية لآلية التحقّق المتبادل. في التصديق المتقاطع، يتم تدريب نموذج واحد لكل جولة من جولات التصديق المتقاطع (على سبيل المثال، يتم تدريب 10 نماذج في عملية تصديق متقاطع من 10 أجزاء). باستخدام التقييم خارج النطاق، يتم تدريب نموذج واحد. بما أنّ التجميع يحجب بعض البيانات عن كل شجرة أثناء التدريب، يمكن أن يستخدم تقييم OOB هذه البيانات لتقريب التحقّق من الصحة المتبادل.

يمكنك الاطّلاع على التقييم خارج المجموعة في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.

الطبقة النهائية

#fundamentals

الطبقة "النهائية" في الشبكة العصبية تحتوي الطبقة النهائية على التوقّع.

يوضّح الرسم التوضيحي التالي شبكة عصبية عميقة صغيرة تتضمّن طبقة إدخال وطبقتَين مخفيتَين والطبقة النهائية:

المطابقة بشكل مفرط

#fundamentals

إنشاء نموذج يطابق بيانات التدريب بشكل كبير جدًا، ما يؤدي إلى عدم قدرة النموذج على تقديم توقّعات صحيحة بشأن البيانات الجديدة

يمكن أن يؤدي التسوية إلى الحدّ من الإفراط في التكيّف. يمكن أن يؤدي التدريب على مجموعة تدريب كبيرة ومتنوعة أيضًا إلى تقليل الإفراط في التكيّف.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

التركيب الزائد هو مثل اتّباع نصائح معلمك المفضّل فقط. من المحتمل أن تنجح في صف هذا المعلّم، ولكن قد "تفرط في التكيّف" مع أفكاره وتفشل في صفوف أخرى. سيساعدك اتّباع نصائح من مجموعة من المعلّمين على التكيّف بشكل أفضل مع المواقف الجديدة.

يمكنك الاطّلاع على الإفراط في التخصيص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

أخذ عيّنات زائدة

إعادة استخدام أمثلة لفئة أقل تمثيلاً في مجموعة بيانات غير متوازنة الفئات من أجل إنشاء مجموعة تدريب أكثر توازنًا

على سبيل المثال، لنفترض أنّ لديك مشكلة تصنيف ثنائي يكون فيها معدّل الفئة الأكبر إلى الفئة الأصغر هو 5,000:1. إذا كانت مجموعة البيانات تحتوي على مليون مثال، فإنّها لن تحتوي إلا على 200 مثال تقريبًا من الفئة الأقل تمثيلاً، وهو عدد قليل جدًا من الأمثلة للتدريب الفعّال. للتغلّب على هذا النقص، يمكنك إعادة استخدام هذه الأمثلة الـ 200 عدة مرات، ما قد يؤدي إلى توفير أمثلة كافية للتدريب المفيد.

يجب توخّي الحذر بشأن المطابقة بشكل مفرط عند إجراء عملية أخذ عينات زائدة.

يختلف ذلك عن نقص أخذ العيّنات.

P

البيانات المضغوطة

نهج لتخزين البيانات بشكل أكثر كفاءة

تخزّن البيانات المضغوطة البيانات إما باستخدام تنسيق مضغوط أو بطريقة أخرى تتيح الوصول إليها بشكل أكثر كفاءة. تؤدي البيانات المضغوطة إلى تقليل مقدار الذاكرة والحسابات المطلوبة للوصول إليها، ما يؤدي إلى تدريب أسرع واستنتاج أكثر كفاءة للنماذج.

يتم غالبًا استخدام البيانات المضغوطة مع تقنيات أخرى، مثل توسيع البيانات و التسوية، ما يؤدي إلى تحسين أداء النماذج بشكل أكبر.

PaLM

اختصار نموذج Pathways اللغوي

باندا

#fundamentals

واجهة برمجة تطبيقات لتحليل البيانات موجّهة نحو الأعمدة، تم إنشاؤها استنادًا إلى numpy. تتيح العديد من أُطر تعلُّم الآلة، بما في ذلك TensorFlow، استخدام بنى بيانات pandas كمدخلات. لمزيد من التفاصيل، يُرجى الاطّلاع على مستندات pandas.

مَعلمة

#fundamentals

الأوزان والانحيازات التي يتعلّمها النموذج أثناء التدريب على سبيل المثال، في نموذج الانحدار الخطي، تتألف المَعلمات من الانحياز (b) وجميع الأوزان (w₁ وw₂ وما إلى ذلك) في الصيغة التالية:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

في المقابل، المَعلمات الفائقة هي القيم التي توفّرها أنت (أو خدمة ضبط المَعلمات الفائقة) للنموذج. على سبيل المثال، معدّل التعلّم هو معلَمة فائقة.

الضبط الفعّال من حيث المعلَمات

#generativeAI

مجموعة من الأساليب لضبط نموذج لغوي كبير مدرَّب مسبقًا (PLM) بشكل أكثر فعالية من الضبط الدقيق الكامل. تتيح عملية الضبط الدقيق الفعّالة من حيث عدد المَعلمات ضبط عدد أقل بكثير من المَعلمات مقارنةً بعملية الضبط الدقيق الكامل، ولكنها تنتج بشكل عام نموذجًا لغويًا كبيرًا يؤدي الوظيفة نفسها (أو الوظيفة نفسها تقريبًا) التي يؤديها النموذج اللغوي الكبير الذي تم إنشاؤه من خلال عملية الضبط الدقيق الكامل.

مقارنة الضبط الفعّال من حيث المَعلَمات بما يلي:

ضبط التعليمات
ضبط الطلبات

يُعرف الضبط الفعّال من حيث المَعلمات أيضًا باسم الضبط الدقيق الفعّال من حيث المَعلمات.

خادم المَعلمات (PS)

#TensorFlow

مهمة تتتبّع مَعلمات نموذج في إعداد موزّع.

تعديل المَعلمة

عملية تعديل المَعلمات الخاصة بنموذج أثناء التدريب، وعادةً ما يتم ذلك في تكرار واحد من النزول التدريجي

مشتقة جزئية

مشتقّ يُعتبر فيه كل المتغيّرات ثابتة باستثناء متغيّر واحد على سبيل المثال، المشتقة الجزئية للدالة f(x, y) بالنسبة إلى x هي مشتقة f التي يتم اعتبارها دالة في x فقط (أي مع إبقاء y ثابتة). يركّز الاشتقاق الجزئي للدالة f بالنسبة إلى x على كيفية تغيّر x فقط ويتجاهل جميع المتغيرات الأخرى في المعادلة.

انحياز المشاركة

#responsible

مرادف لانحياز عدم الاستجابة اطّلِع على الانحياز في الاختيار.

استراتيجية التجزئة

الخوارزمية التي يتم من خلالها تقسيم المتغيّرات على خوادم المَعلمات

pass at k (pass@k)

#Metric

مقياس لتحديد جودة الرمز (مثل Python) الذي ينشئه نموذج لغوي كبير وبشكل أكثر تحديدًا، يخبرك مقياس "النجاح عند k" باحتمالية أن تجتاز مجموعة واحدة على الأقل من الرموز البرمجية التي تم إنشاؤها من بين k مجموعة من الرموز البرمجية جميع اختبارات الوحدة.

غالبًا ما تواجه النماذج اللغوية الكبيرة صعوبة في إنشاء رموز برمجية جيدة للمشاكل البرمجية المعقّدة. يتكيّف مهندسو البرمجيات مع هذه المشكلة من خلال مطالبة النموذج اللغوي الكبير بإنشاء حلول متعدّدة (k) للمشكلة نفسها. بعد ذلك، يختبر مهندسو البرامج كل حلّ باستخدام اختبارات الوحدات. يعتمد احتساب "اجتياز عند k" على نتيجة اختبارات الوحدات:

إذا نجح واحد أو أكثر من هذه الحلول في اختبار الوحدة، يعني ذلك أنّ النموذج اللغوي الكبير اجتاز تحدّي إنشاء الرمز البرمجي هذا.
إذا لم ينجح أي من الحلول في اجتياز اختبار الوحدة، يفشل النموذج اللغوي الكبير في تحدي إنشاء الرمز البرمجي.

صيغة "النجاح عند k" هي كما يلي:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

بشكل عام، تؤدي القيم الأعلى k إلى تحقيق نتائج أعلى في اختبارات النجاح عند k، ولكن تتطلب القيم الأعلى k المزيد من موارد النماذج اللغوية الكبيرة واختبارات الوحدات.

انقر على الرمز للاستماع إلى مثال.

لنفترض أنّ مهندس برامج يطلب من نموذج لغوي كبير إنشاء k=10 حلول لـ n=50 مشكلة صعبة في الترميز. في ما يلي النتائج:

30 بطاقة
‫20 حالة فشل

وبالتالي، فإنّ درجة النجاح عند 10 هي:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

نموذج Pathways اللغوي (PaLM)

نموذج قديم ونسخة سابقة من نماذج Gemini

Pax

#generativeAI

إطار عمل برمجي مصمّم لتدريب نماذج الشبكات العصبونية الواسعة النطاق التي تكون كبيرة جدًا لدرجة أنّها تمتد على شرائح وحدات معالجة الموتّرات شرائح تسريع أو شرائح أو لوحات.

يستند Pax إلى Flax، الذي يستند إلى JAX.

مخطّط بياني يشير إلى موضع Pax في حزمة البرامج
تم إنشاء Pax استنادًا إلى JAX. يتألف تنسيق Pax من ثلاث طبقات. تحتوي الطبقة السفلية على TensorStore وFlax.
تحتوي الطبقة الوسطى على Optax وFlaxformer. تحتوي الطبقة العليا على مكتبة Praxis Modeling Library. تم إنشاء Fiddle
استنادًا إلى Pax.

البرسبترون

نظام (أو جهاز أو برنامج) يتلقّى قيمة إدخال واحدة أو أكثر، ويشغّل دالة على المجموع المرجّح للمدخلات، ويحسب قيمة إخراج واحدة. في تعلُّم الآلة، تكون الدالة عادةً غير خطية، مثل ReLU أو sigmoid أو tanh. على سبيل المثال، تعتمد الشبكة العصبية التالية على الدالة السينية لمعالجة ثلاث قيم إدخال:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

في الرسم التوضيحي التالي، يستقبل البيرسبترون ثلاث مدخلات، يتم تعديل كل منها بواسطة وزن قبل إدخاله إلى البيرسبترون:

هي عبارة عن شبكة عصبية تأخذ 3 مدخلات، يتم ضرب كل منها بأوزان منفصلة. تنتج الشبكة العصبية ذات الطبقة الواحدة قيمة واحدة.

تُعدّ وحدات الإدراك خلايا عصبية في الشبكات العصبونية.

الأداء

#Metric

مصطلح مُحمّل بالمعاني التالية:

المعنى العادي ضمن هندسة البرمجيات وهي: ما مدى سرعة (أو كفاءة) تشغيل هذا البرنامج؟
المعنى في سياق تعلُّم الآلة في هذه الحالة، يجيب الأداء عن السؤال التالي: ما مدى صحة هذا النموذج؟ أي، ما مدى دقة التوقعات التي يقدّمها النموذج؟

أهمية المتغيرات في التبديل

#df

#Metric

أحد أنواع أهمية المتغير التي تقيّم الزيادة في خطأ التوقّع للنموذج بعد تبديل قيم الميزة. أهمية المتغيرات في التبديل هي مقياس مستقل عن النموذج.

مقياس الارتباك

#Metric

مقياس لمدى نجاح النموذج في إنجاز مهمته. على سبيل المثال، لنفترض أنّ مهمتك هي قراءة الأحرف القليلة الأولى من كلمة يكتبها المستخدم على لوحة مفاتيح الهاتف، وتقديم قائمة بالكلمات المحتملة التي يمكن إكمالها. إنّ مقياس الارتباك، P، لهذه المهمة هو تقريبًا عدد التخمينات التي عليك تقديمها لكي تتضمّن قائمتك الكلمة الفعلية التي يحاول المستخدم كتابتها.

يرتبط مقياس الارتباك بالإنتروبيا المتداخلة على النحو التالي:

$$P= 2^{-\text{cross entropy}}$$

مسار

البنية الأساسية المحيطة بخوارزمية تعلُّم الآلة تتضمّن عملية إنشاء مسار التعلّم جمع البيانات ووضعها في ملفات بيانات التدريب وتدريب نموذج واحد أو أكثر وتصدير النماذج إلى مرحلة الإنتاج.

لمزيد من المعلومات، راجِع مسارات تعلُّم الآلة في دورة "إدارة مشاريع تعلُّم الآلة".

التنفيذ المتزامن

أحد أشكال التوازي على مستوى النموذج، حيث يتم تقسيم معالجة النموذج إلى مراحل متتالية ويتم تنفيذ كل مرحلة على جهاز مختلف. أثناء معالجة مرحلة ما لإحدى الدفعات، يمكن للمرحلة السابقة معالجة الدفعة التالية.

اطّلِع أيضًا على التدريب على مراحل.

pjit

هي دالة JAX تقسّم الرمز البرمجي ليتم تنفيذه على عدة شرائح تسريع. يُمرِّر المستخدم دالة إلى pjit، تعرض دالة لها الدلالات المكافئة ولكن يتم تجميعها في عملية حسابية XLA يتم تنفيذها على عدة أجهزة (مثل وحدات معالجة الرسومات أو نوى TPU).

تتيح هذه الميزة للمستخدمين تقسيم العمليات الحسابية بدون إعادة كتابتها باستخدام أداة التقسيم SPMD.

اعتبارًا من مارس 2023، تم دمج pjit مع jit. يُرجى الرجوع إلى المصفوفات الموزّعة والتوازي التلقائي لمزيد من التفاصيل.

plan-and-solve

#agent

إستراتيجية قائمة على الوكالة حيث يضع النموذج أولاً خطة واضحة ومتعددة الخطوات قبل محاولة تنفيذ أي إجراءات

PLM

#generativeAI

اختصار النموذج اللغوي المدرَّب مسبقًا

المكوّن الإضافي

#agent

أداة موحّدة ونمطية يمكن ربطها بسهولة بأحد الوكلاء لتوسيع إمكاناته. على سبيل المثال، تتيح إضافة GitHub للوكلاء تنفيذ إجراءات مثل قراءة المشاكل في GitHub وإنشاء طلبات سحب.

pmap

دالة JAX تنفّذ نُسخًا من دالة إدخال على أجهزة متعددة أساسية (وحدات معالجة مركزية أو وحدات معالجة الرسومات أو وحدات TPU)، مع قيم إدخال مختلفة. تعتمد دالة pmap على SPMD.

‏

في التعلّم التعزيزي، يكون الوكيل عبارة عن عملية ربط احتمالية بين الحالات والإجراءات.

اختزال

تقليل حجم مصفوفة (أو مصفوفات) تم إنشاؤها بواسطة طبقة التفافية سابقة إلى مصفوفة أصغر تتضمّن عملية الاختزال عادةً أخذ القيمة القصوى أو المتوسطة في المنطقة المجمّعة. على سبيل المثال، لنفترض أنّ لدينا مصفوفة 3x3 التالية:

المصفوفة 3x3 [[5,3,1], [8,2,5], [9,4,3]].

تعمل عملية التجميع، تمامًا مثل عملية الالتفاف، على تقسيم هذه المصفوفة إلى شرائح ثم تمرير عملية الالتفاف هذه بمقدار خطوات. على سبيل المثال، لنفترض أنّ عملية التجميع تقسّم مصفوفة الالتفاف إلى شرائح 2x2 بخطوة 1x1. كما يوضّح الرسم البياني التالي، يتم تنفيذ أربع عمليات اختزال. لنفترض أنّ كل عملية تجميع تختار القيمة القصوى من القيم الأربع في تلك الشريحة:

تساعد عملية التجميع في فرض الثبات الانتقالي في مصفوفة الإدخال.

يُعرف التجميع لتطبيقات الرؤية بشكل أكثر رسمية باسم الاختزال المكاني. تشير تطبيقات السلاسل الزمنية عادةً إلى التجميع باسم التجميع الزمني. يُطلق على التجميع بشكل غير رسمي اسم أخذ العينات أو تقليل عدد العينات.

الترميز الموضعي

أسلوب لإضافة معلومات حول موضع الرمز المميّز في تسلسل إلى تضمين الرمز المميّز تستخدم نماذج المحوّل الترميز الموضعي لفهم العلاقة بين الأجزاء المختلفة من التسلسل بشكل أفضل.

يستخدم التنفيذ الشائع للترميز الموضعي دالة جيبية. (على وجه التحديد، يتم تحديد معدّل التكرار والسعة للدالة الجيبية من خلال موضع الرمز المميز في التسلسل). تتيح هذه التقنية لنموذج Transformer التعرّف على كيفية الانتباه إلى أجزاء مختلفة من التسلسل استنادًا إلى موضعها.

فئة موجبة

#fundamentals

#Metric

الصف الذي تجري الاختبار فيه

على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". قد تكون الفئة الإيجابية في نموذج تصنيف للرسائل الإلكترونية هي "رسائل غير مرغوب فيها".

يجب التمييز بينها وبين الفئة السلبية.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

قد يكون مصطلح الفئة الإيجابية مربكًا لأنّ النتيجة "الإيجابية" للعديد من الاختبارات غالبًا ما تكون نتيجة غير مرغوب فيها. على سبيل المثال، تتوافق الفئة الإيجابية في العديد من الاختبارات الطبية مع الأورام أو الأمراض. بشكل عام، تريد أن يقول لك الطبيب: "تهانينا! كانت نتائج اختبارك سلبية". على أي حال، الفئة الإيجابية هي الحدث الذي يسعى الاختبار إلى العثور عليه.

من الواضح أنّك تختبر في الوقت نفسه الفئتَين الإيجابية والسلبية.

المعالجة اللاحقة

#responsible

#fundamentals

تعديل ناتج النموذج بعد تشغيله يمكن استخدام المعالجة اللاحقة لفرض قيود الإنصاف بدون تعديل النماذج نفسها.

على سبيل المثال، يمكن تطبيق المعالجة اللاحقة على نموذج التصنيف الثنائي من خلال ضبط عتبة التصنيف، وذلك للحفاظ على تكافؤ الفرص لبعض السمات من خلال التأكّد من أنّ معدل الموجب الصحيح هو نفسه لجميع قيم تلك السمة.

نموذج محسَّن بعد التدريب

#generativeAI

مصطلح غير محدّد بدقة يشير عادةً إلى نموذج مُدرَّب مسبقًا خضع لبعض عمليات المعالجة اللاحقة، مثل واحدة أو أكثر من العمليات التالية:

التقطير
الضبط الدقيق
ضبط النموذج وفقًا للتعليمات

المساحة تحت منحنى الدقة والاستدعاء (PR AUC)

#Metric

المساحة تحت منحنى الدقة والاستدعاء الذي تم الحصول عليه من خلال رسم نقاط (الاستدعاء، الدقة) لقيم مختلفة لعتبة التصنيف

Praxis

مكتبة أساسية وعالية الأداء لتعلُّم الآلة في Pax يُطلق على Praxis غالبًا اسم "مكتبة الطبقات".

لا يحتوي Praxis على تعريفات لفئة Layer فحسب، بل يتضمّن أيضًا معظم المكوّنات المتوافقة معها، بما في ذلك:

مدخلات البيانات
مكتبات الإعدادات (HParam وFiddle)
أدوات التحسين

توفّر Praxis تعريفات لفئة النموذج.

الدقة

#fundamentals

#Metric

مقياس لنماذج التصنيف يجيب عن السؤال التالي:

عندما توقّع النموذج الفئة الموجبة، ما هي النسبة المئوية للتوقّعات الصحيحة؟

في ما يلي الصيغة:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

where:

تشير النتيجة الإيجابية الصحيحة إلى أنّ النموذج توقّع بشكل صحيح الفئة الإيجابية.
تعني النتيجة الموجبة الخاطئة أنّ النموذج توقّع بشكل خاطئ الفئة الموجبة.

على سبيل المثال، لنفترض أنّ نموذجًا قدّم 200 توقّع إيجابي. من بين هذه التوقّعات الإيجابية البالغ عددها 200:

كانت 150 منها نتائج موجبة صحيحة.
كانت 50 منها نتائج موجبة خاطئة.

في هذه الحالة:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

يجب التمييز بينه وبين الدقة واكتمال التوقعات الإيجابية.

الدقة عند k (precision@k)

#Metric

مقياس لتقييم قائمة مرتبة من العناصر. تحدّد الدقة عند k الجزء من أول k عنصر في تلك القائمة الذي يكون "ملائمًا". والمقصود:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

يجب أن تكون قيمة k أقل من أو تساوي طول القائمة التي تم إرجاعها. يُرجى العلم أنّ طول القائمة التي يتم عرضها ليس جزءًا من عملية الاحتساب.

غالبًا ما يكون مدى الصلة بالموضوع أمرًا شخصيًا، وحتى المقيّمون البشريون الخبراء يختلفون في كثير من الأحيان بشأن العناصر ذات الصلة بالموضوع.

المقارنة بـ:

متوسط مقياس صحة النموذج عند k
متوسط مقياس صحة النموذج عند k

انقر على الرمز للاطّلاع على مثال.

لنفترض أنّ نموذجًا لغويًا كبيرًا تلقّى طلب البحث التالي:

List the 6 funniest movies of all time in order.

ويعرض النموذج اللغوي الكبير القائمة الموضّحة في العمودين الأول والثاني من الجدول التالي:

الموضع	فيلم	هل المحتوى ذو صلة؟
1	الجنرال	نعم
2	Mean Girls	نعم
3	Platoon	لا
4	وصيفات العروس	نعم
5	المواطن كين	لا
6	This is Spinal Tap	نعم

فيلمان من الأفلام الثلاثة الأولى ذات صلة، لذا تكون الدقة عند 3 كما يلي:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

ثلاثة من الأفلام الخمسة الأولى مضحكة جدًا، لذا يكون مقياس صحة النموذج عند 5 كما يلي:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

منحنى الدقة والاستدعاء

#Metric

منحنى مقياس صحة النموذج مقابل مقياس المراجعة عند عتبات التصنيف المختلفة.

التوقّع

#fundamentals

ناتج النموذج على سبيل المثال:

يكون التوقّع الذي يقدّمه نموذج التصنيف الثنائي إما الفئة الإيجابية أو الفئة السلبية.
يكون التوقّع الذي يقدّمه نموذج التصنيف المتعدد الفئات فئة واحدة.
توقّع نموذج الانحدار الخطي هو رقم.

انحياز التوقّعات

#Metric

تشير هذه القيمة إلى مدى اختلاف متوسط التوقعات عن متوسط التصنيفات في مجموعة البيانات.

يجب عدم الخلط بينها وبين مصطلح الانحياز في نماذج تعلُّم الآلة أو الانحياز في الأخلاق والعدالة.

تعلُّم الآلة القائم على التوقّعات

أي نظام تعلُّم آلي عادي ("كلاسيكي")

لا يوجد تعريف رسمي لمصطلح التعلم الآلي التوقعي. بل إنّ هذا المصطلح يميز فئة من أنظمة تعلُّم الآلة لا تستند إلى الذكاء الاصطناعي التوليدي.

التكافؤ التوقّعي

#responsible

#Metric

مقياس الإنصاف يتحقّق مما إذا كانت معدّلات مقياس صحة النموذج متساوية للمجموعات الفرعية قيد الدراسة في نموذج التصنيف معيّن.

على سبيل المثال، إذا كان هناك نموذج يتوقّع قبول الطلاب في الكلية، سيحقّق هذا النموذج تكافؤ التوقّعات بالنسبة إلى الجنسية إذا كان معدّل دقته متساويًا بالنسبة إلى الأشخاص من ليليبوت وبروبدينغناغ.

يُطلق على ميزة "تطابق الأسعار التوقّعية" أحيانًا اسم تطابق الأسعار التوقّعية.

يمكنك الاطّلاع على "تعريفات العدالة مشروحة" (الفقرة 3.2.1) للحصول على مناقشة أكثر تفصيلاً بشأن التكافؤ التوقعي.

ميزة "تساوي الأسعار التوقّعي"

#responsible

#Metric

اسم آخر للتكافؤ التوقعي

المعالجة المُسبَقة

#responsible

معالجة البيانات قبل استخدامها لتدريب نموذج يمكن أن تكون المعالجة المسبقة بسيطة مثل إزالة الكلمات من مجموعة نصوص باللغة الإنجليزية غير متوفرة في قاموس اللغة الإنجليزية، أو معقّدة مثل إعادة التعبير عن نقاط البيانات بطريقة تزيل أكبر عدد ممكن من السمات المرتبطة بالسمات الحسّاسة. يمكن أن تساعد المعالجة المُسبقة في استيفاء قيود الإنصاف.

نموذج مدرَّب مسبقًا

#generativeAI

على الرغم من أنّ هذا المصطلح يمكن أن يشير إلى أي نموذج أو متّجه تضمين تم تدريبه، يشير النموذج المُدرَّب مسبقًا الآن عادةً إلى نموذج لغوي كبير أو شكل آخر من أشكال الذكاء الاصطناعي التوليدي المُدرَّب.

يمكنك أيضًا الاطّلاع على النموذج الأساسي والنموذج الأولي.

التدريب المسبق

#generativeAI

التدريب الأوّلي للنموذج على مجموعة بيانات كبيرة بعض النماذج المدرَّبة مسبقًا هي نماذج ضخمة وغير دقيقة، ويجب عادةً تحسينها من خلال تدريب إضافي. على سبيل المثال، قد يدرّب خبراء تعلُّم الآلة نموذج لغوي كبير مسبقًا على مجموعة بيانات نصية ضخمة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية. بعد التدريب المُسبَق، يمكن تحسين النموذج الناتج بشكل أكبر من خلال أي من التقنيات التالية:

التقطير
الضبط الدقيق
ضبط التعليمات
الضبط الفعّال من حيث المَعلمات
ضبط الطلبات

الاعتقاد المسبق

ما تعتقده بشأن البيانات قبل البدء في التدريب عليها على سبيل المثال، تعتمد تسوية L₂ على اعتقاد مسبق بأنّ الأوزان يجب أن تكون صغيرة وموزّعة بشكل طبيعي حول الصفر.

Pro

#generativeAI

نموذج Gemini يتضمّن عددًا أقل من المَعلمات مقارنةً بنموذج Ultra، ولكن عددًا أكبر من المَعلمات مقارنةً بنموذج Nano. يمكنك الاطّلاع على مقالة Gemini Pro لمزيد من التفاصيل.

احتمالي

بشكل عام، أي موقف يتم فيه اتخاذ القرارات استنادًا إلى الاحتمالات أو الفرص. النماذج اللغوية الكبيرة هي أنظمة احتمالية، فهي تنشئ الكلمة أو الجملة التالية في رد استنادًا إلى الاحتمالات.

إذا كانت درجة العشوائية منخفضة نسبيًا، سيختار النموذج اللغوي الكبير الكلمات أو الجمل التي يُرجّح استخدامها تاليًا. إذا كانت درجة العشوائية مرتفعة نسبيًا، سيكون النموذج اللغوي الكبير أكثر "إبداعًا"، وسيختار أحيانًا كلمات أو جملًا ذات احتمالات أقل.

نموذج الانحدار الاحتمالي

نموذج انحدار يستخدم الأوزان لكل سمة، بالإضافة إلى عدم اليقين بشأن هذه الأوزان. ينشئ نموذج الانحدار الاحتمالي قيمة متوقّعة ومقدار عدم اليقين المرتبط بهذه القيمة. على سبيل المثال، قد يعطي نموذج الانحدار الاحتمالي قيمة متوقّعة تبلغ 325 بانحراف معياري يبلغ 12. لمزيد من المعلومات حول نماذج الانحدار الاحتمالي، يُرجى الاطّلاع على هذا المستند على Colab في tensorflow.org.

دالة الكثافة الاحتمالية

#Metric

دالة تحدّد عدد مرات تكرار عيّنات البيانات التي تتضمّن بالضبط قيمة معيّنة. عندما تكون قيم مجموعة البيانات عبارة عن أرقام نقطة عائمة مستمرة، نادرًا ما تحدث تطابقات تامة. ومع ذلك، يؤدي تكامل دالة كثافة الاحتمال من القيمة x إلى القيمة y إلى الحصول على التكرار المتوقّع لعيّنات البيانات بين x وy.

على سبيل المثال، لنفترض أنّ لدينا توزيعًا عاديًا بمتوسط 200 وانحراف معياري يبلغ 30. لتحديد التكرار المتوقّع لعينات البيانات التي تقع ضمن النطاق من 211.4 إلى 218.7، يمكنك دمج دالة كثافة الاحتمال للتوزيع الطبيعي من 211.4 إلى 218.7.

الذاكرة الإجرائية

#agent

في الوكلاء، تشير إلى المعرفة بكيفية تنفيذ إجراء معيّن. على سبيل المثال، قد يطوّر الوكيل ذاكرة إجرائية لكيفية البحث على الويب، ثم يعرض أهم ثلاثة مواقع إلكترونية.

prompt

#generativeAI

أي نص يتم إدخاله كمدخل إلى نموذج لغوي كبير لإعداد النموذج ليعمل بطريقة معيّنة. يمكن أن تكون الطلبات قصيرة مثل عبارة أو طويلة بشكل عشوائي (على سبيل المثال، النص الكامل لرواية). تندرج الطلبات ضمن فئات متعددة، بما في ذلك الفئات الموضّحة في الجدول التالي:

فئة الطلب	مثال	ملاحظات
السؤال	`ما هي سرعة طيران الحمام؟`
مدرسة تعليم	`اكتب قصيدة مضحكة عن المراجحة.`	طلب يطلب من النموذج اللغوي الكبير تنفيذ إجراء معيّن.
مثال	`ترجمة رمز Markdown إلى HTML على سبيل المثال: Markdown: * عنصر قائمة HTML: <ul> <li>عنصر قائمة</li> </ul>`	الجملة الأولى في مثال الطلب هذا هي تعليمات. ويشكّل الجزء المتبقي من الطلب المثال.
الدور	`اشرح سبب استخدام خوارزمية النزول التدرّجي في تدريب تعلُّم الآلة لشخص حاصل على دكتوراه في الفيزياء.`	الجزء الأول من الجملة هو تعليمات، أما العبارة "للحصول على درجة الدكتوراه في الفيزياء" فهي جزء الدور.
إدخال جزئي لإكماله من قِبل النموذج	`يسكن رئيس وزراء المملكة المتحدة في`	يمكن أن ينتهي طلب الإدخال الجزئي بشكل مفاجئ (كما هو الحال في هذا المثال) أو ينتهي بشرطة سفلية.

يمكن لنموذج الذكاء الاصطناعي التوليدي الاستجابة لطلب باستخدام نص أو رمز برمجي أو صور أو تضمينات أو فيديوهات أو أي شيء آخر تقريبًا.

التعلّم المستند إلى الطلبات

#generativeAI

إحدى إمكانات بعض النماذج التي تتيح لها تعديل سلوكها استجابةً لإدخال نص عشوائي (طلبات). في نموذج التعلّم النموذجي المستند إلى الطلبات، يستجيب النموذج اللغوي الكبير لطلب من خلال إنشاء نص. على سبيل المثال، لنفترض أنّ المستخدم يُدخل الطلب التالي:

لخِّص قانون "نيوتن" الثالث للحركة.

لا يتم تدريب النموذج القادر على التعلّم المستند إلى الطلبات بشكل خاص للإجابة عن الطلب السابق. بدلاً من ذلك، "يعرف" النموذج الكثير من الحقائق حول الفيزياء، والكثير حول قواعد اللغة العامة، والكثير حول ما يشكّل إجابات مفيدة بشكل عام. هذه المعرفة كافية لتقديم إجابة (نأمل أن تكون) مفيدة. تتيح الملاحظات الإضافية من المستخدمين ("كانت الإجابة معقّدة جدًا" أو "ما هو التفاعل؟") لبعض أنظمة التعلّم المستندة إلى الطلبات تحسين فائدة إجاباتها تدريجيًا.

سلسلة الطلبات

استخدام ناتج طلب كمدخل لطلب آخر التحفيز من الأقل إلى الأكثر هو شكل شائع من أشكال تسلسل الطلبات.

تصميم الطلبات

#generativeAI

مرادف لهندسة الطلبات

هندسة الطلبات

#generativeAI

فن إنشاء طلبات تؤدي إلى الحصول على الردود المطلوبة من نموذج لغوي كبير يُجري البشر عملية هندسة الطلبات. تُعد كتابة طلبات منظَّمة بشكل جيد جزءًا أساسيًا من ضمان الحصول على ردود مفيدة من نموذج لغوي كبير. تعتمد هندسة الطلبات على العديد من العوامل، بما في ذلك:

مجموعة البيانات المستخدَمة في التدريب الأوّلي وربما التحسين للنموذج اللغوي الكبير
تمثّل هذه السمة درجة العشوائية وغيرها من مَعلمات فك الترميز التي يستخدمها النموذج لإنشاء الردود.

تصميم الطلبات هو مرادف لهندسة الطلبات.

يمكنك الاطّلاع على مقدمة حول تصميم الطلبات لمزيد من التفاصيل حول كتابة طلبات مفيدة.

مجموعة الطلبات

#generativeAI

مجموعة من الطلبات لتقييم نموذج لغوي كبير على سبيل المثال، يوضّح الرسم التوضيحي التالي مجموعة طلبات تتألف من ثلاثة طلبات:

ثلاثة طلبات إلى نموذج لغوي كبير تؤدي إلى ثلاثة ردود. تشكّل المطالبات الثلاث
مجموعة المطالبات. تشكّل الردود الثلاثة مجموعة الردود.

تتألف مجموعات الطلبات الجيدة من مجموعة "واسعة" بما يكفي من الطلبات لتقييم سلامة النماذج اللغوية الكبيرة ومدى فائدتها بشكل شامل.

يمكنك الاطّلاع أيضًا على مجموعة الردود.

ضبط الطلبات

#generativeAI

آلية ضبط فعّال للمَعلمات تتعلّم "بادئة" يضيفها النظام قبل الطلب الفعلي.

إحدى طرق تعديل الطلبات، والتي تُعرف أحيانًا باسم تعديل البادئة، هي إضافة البادئة في كل طبقة. في المقابل، لا تضيف معظم عمليات تحسين الطلبات سوى بادئة إلى طبقة الإدخال.

انقر على الرمز لمعرفة المزيد عن البادئات.

في عملية تحسين الطلبات، تكون "البادئة" (المعروفة أيضًا باسم "الطلب المرن") عبارة عن مجموعة من المتجهات التي تم تعلّمها والمخصّصة لمهمة معيّنة، وتتم إضافتها قبل تضمينات الرموز المميزة للنص من الطلب الفعلي. يتعلّم النظام الطلب اللطيف من خلال تجميد جميع مَعلمات النموذج الأخرى وتحسينها ليصبح قادرًا على أداء مهمة معيَّنة.

provenance

#responsible

بيانات توضّح كيفية إنشاء قطعة من محتوى الوسائط الرقمية أو تغييرها

الوكيل (السمات الحسّاسة)

#responsible

سمة مستخدَمة كبديل لسمة حساسة على سبيل المثال، يمكن استخدام الرمز البريدي الخاص بفرد كبديل للدخل أو العِرق أو الأصل الإثني.

تصنيفات تقريبية

#fundamentals

البيانات المستخدَمة لتقريب التصنيفات غير المتوفّرة مباشرةً في مجموعة البيانات

على سبيل المثال، لنفترض أنّه عليك تدريب نموذج لتوقّع مستوى الإجهاد لدى الموظفين. تحتوي مجموعة البيانات على الكثير من الميزات التنبؤية، ولكنها لا تتضمّن تصنيفًا باسم مستوى الإجهاد. لم يثنِك ذلك، فاخترت "حوادث في مكان العمل" كبديل لمستوى التوتر. ففي النهاية، يتعرّض الموظفون الذين يعانون من ضغط كبير إلى حوادث أكثر من الموظفين الذين يتمتعون بالهدوء. أم أنّها كذلك؟ ربما تزداد حوادث العمل وتنخفض لأسباب متعددة.

كمثال ثانٍ، لنفترض أنّك تريد أن تكون هل تمطر؟ تصنيفًا منطقيًا لمجموعة البيانات، ولكنّ مجموعة البيانات لا تحتوي على بيانات حول المطر. إذا كانت الصور الفوتوغرافية متاحة، يمكنك إنشاء تصنيف بديل لـ هل تمطر؟ من خلال عرض صور لأشخاص يحملون مظلات. هل هذا تصنيف تقريبي جيد؟ من المحتمل ذلك، ولكن قد يميل الأشخاص في بعض الثقافات إلى حمل المظلات للحماية من الشمس أكثر من الحماية من المطر.

غالبًا ما تكون التصنيفات التقريبية غير مثالية. عند الإمكان، اختَر التصنيفات الفعلية بدلاً من التصنيفات التقريبية. مع ذلك، عند عدم توفّر تصنيف فعلي، يجب اختيار التصنيف البديل بعناية فائقة، مع الحرص على اختيار التصنيف البديل الأقل سوءًا.

لمزيد من المعلومات، اطّلِع على مجموعات البيانات: التصنيفات في "دورة مكثّفة عن تعلُّم الآلة".

دالة خالصة

دالة تستند مخرجاتها فقط إلى مدخلاتها، وليس لها أي آثار جانبية. على وجه التحديد، لا تستخدم الدالة النقية أي حالة عامة أو تغيّرها، مثل محتوى ملف أو قيمة متغيّر خارج الدالة.

يمكن استخدام الدوال النقية لإنشاء رمز برمجي آمن للاستخدام المتزامن، وهو أمر مفيد عند تقسيم رمز النموذج على عدة شرائح تسريع.

تتطلّب طرق تحويل الدوال في JAX أن تكون الدوال المُدخَلة دوالاً خالصة.

Q

دالة Q

في التعلم المعزّز، هي الدالة التي تتوقّع العائد المتوقّع من اتّخاذ إجراء في حالة معيّنة ثم اتّباع سياسة معيّنة.

تُعرف دالة Q أيضًا باسم دالة قيمة حالة الإجراء.

Q-learning

في التعلم المعزز، تستخدم الخوارزمية عنصرًا يتعلّم دالة Q المثالية لعملية اتخاذ قرار ماركوف من خلال تطبيق معادلة بيلمان. تضع نماذج عملية اتخاذ القرار في ماركوف بيئة.

التجزيء

كل مجموعة في تقسيم البيانات إلى شرائح كمية

تقسيم البيانات إلى حزمات حسب الكمية

توزيع قيم إحدى السمات على حِزم بحيث تحتوي كل حزمة على العدد نفسه (أو العدد نفسه تقريبًا) من الأمثلة على سبيل المثال، يقسّم الشكل التالي 44 نقطة إلى 4 مجموعات، تحتوي كل منها على 11 نقطة. ولكي يحتوي كل جزء في الشكل على العدد نفسه من النقاط، تمتد بعض الأجزاء على عرض مختلف من قيم x.

‫44 نقطة بيانات مقسّمة إلى 4 مجموعات من 11 نقطة لكل مجموعة
على الرغم من أنّ كل مجموعة تحتوي على العدد نفسه من نقاط البيانات،
تحتوي بعض المجموعات على نطاق أوسع من قيم السمات مقارنةً بالمجموعات الأخرى.

لمزيد من المعلومات، يمكنك الاطّلاع على البيانات الرقمية: التقسيم إلى فئات في "دورة مكثّفة عن تعلُّم الآلة".

التكميم

مصطلح مُحمَّل بشكل زائد يمكن استخدامه بأي من الطرق التالية:

تنفيذ تحويل القيم حسب الكمية على ميزة معيّنة
تحويل البيانات إلى أصفار وآحاد لتسريع عمليات التخزين والتدريب والاستنتاج بما أنّ البيانات المنطقية أكثر مقاومة للتشويش والأخطاء من التنسيقات الأخرى، يمكن أن يؤدي التكميم إلى تحسين صحة النموذج. تشمل تقنيات التكميم التقريب والاقتطاع والتصنيف.
تقليل عدد وحدات البت المستخدَمة لتخزين المَعلمات الخاصة بنموذج على سبيل المثال، لنفترض أنّ مَعلمات أحد النماذج يتم تخزينها كأرقام نقطة عائمة 32 بت. يحوّل التكميم هذه المَعلمات من 32 بت إلى 4 أو 8 أو 16 بت. يؤدي التكميم إلى تقليل ما يلي:
- استخدام الحوسبة والذاكرة والقرص والشبكة
- حان الوقت لاستنتاج تنبؤ
- استهلاك الطاقة
ومع ذلك، تؤدي عملية التكميم أحيانًا إلى تقليل صحة التوقعات التي يقدّمها النموذج.

قائمة المحتوى التالي

#TensorFlow

عملية TensorFlow تنفّذ بنية بيانات قائمة الانتظار. يُستخدَم عادةً في عمليات الإدخال والإخراج.

R

التوليد المعزّز بالاسترجاع (RAG)

#fundamentals

اختصار للتوليد المعزّز بالاسترجاع

الغابة العشوائية

#df

مجموعة موحدة من أشجار القرارات يتم تدريب كل شجرة قرارات فيها باستخدام تشويش عشوائي محدد، مثل التجميع.

الغابات العشوائية هي نوع من غابات القرارات.

يمكنك الاطّلاع على الغابة العشوائية في دورة "أشجار القرارات" للحصول على مزيد من المعلومات.

سياسة عشوائية

في التعلم المعزّز، سياسة تختار إجراءً بشكل عشوائي.

الترتيب (الترتيبية)

الترتيب التسلسلي لفئة في مشكلة تعلّم آلي تصنّف الفئات من الأعلى إلى الأدنى. على سبيل المثال، يمكن لنظام ترتيب السلوك أن يرتب مكافآت الكلاب من الأعلى (شريحة لحم) إلى الأدنى (كرنب مجعد ذابل).

الترتيب (المتّجه)

#TensorFlow

عدد السمات في Tensor على سبيل المثال، يكون ترتيب العدد القياسي 0، وترتيب المتّجه 1، وترتيب المصفوفة 2.

يجب عدم الخلط بينها وبين الترتيب (الترتيب العددي).

الترتيب

نوع من التعلّم الموجّه يهدف إلى ترتيب قائمة من العناصر.

مُصنِّف

#fundamentals

هو شخص يقدّم تصنيفات لأمثلة. "المعلِّق" هو اسم آخر للمقيّم.

لمزيد من المعلومات، اطّلِع على البيانات الفئوية: المشاكل الشائعة في "دورة مكثّفة عن تعلّم الآلة".

مجموعة بيانات الفهم أثناء القراءة باستخدام الاستدلال المنطقي (ReCoRD)

#Metric

مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على إجراء استدلال منطقي سليم يحتوي كل مثال في مجموعة البيانات على ثلاثة عناصر:

فقرة أو فقرتان من مقالة إخبارية
طلب بحث يتم فيه إخفاء أحد الكيانات المحدّدة بشكل صريح أو ضِمني في الفقرة.
الإجابة (اسم العنصر الذي ينتمي إلى القناع)

يمكنك الاطّلاع على ReCoRD للحصول على قائمة شاملة بالأمثلة.

‫ReCoRD هو أحد مكوّنات مجموعة SuperGLUE.

RealToxicityPrompts

#Metric

مجموعة بيانات تحتوي على مجموعة من بدايات الجمل التي قد تتضمّن محتوًى سامًا. استخدِم مجموعة البيانات هذه لتقييم قدرة نموذج لغوي كبير على إنشاء نص غير سام لإكمال الجملة. عادةً، يتم استخدام Perspective API لتحديد مدى جودة أداء النموذج اللغوي الكبير في هذه المهمة.

لمزيد من التفاصيل، يمكنك الاطّلاع على مقالة RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models.

السبب

#agent

مرحلة في حلقة الوكيل يحدّد فيها الوكيل الإجراءات التي يجب اتّخاذها. على سبيل المثال، قد يحدّد الوكيل أنّه يجب إرسال طلب بيانات من واجهة برمجة التطبيقات.

تذكُّر الإعلان

#fundamentals

#Metric

مقياس لنماذج التصنيف يجيب عن السؤال التالي:

عندما كانت الحقيقة الأساسية هي الفئة الموجبة، ما هي النسبة المئوية للتوقّعات التي حدّدها النموذج بشكل صحيح على أنّها الفئة الموجبة؟

في ما يلي الصيغة:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

where:

تشير النتيجة الإيجابية الصحيحة إلى أنّ النموذج توقّع بشكل صحيح الفئة الإيجابية.
يعني السلبي الخاطئ أنّ النموذج توقّع بشكل خاطئ الفئة السلبية.

على سبيل المثال، لنفترض أنّ نموذجك قدّم 200 توقّع بشأن أمثلة كانت الحقيقة الأساسية فيها هي الفئة الموجبة. من بين هذه التوقعات الـ 200:

كانت 180 منها نتائج موجبة صحيحة.
كانت 20 منها نتائج سلبية خاطئة.

في هذه الحالة:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

انقر على الرمز للاطّلاع على ملاحظات حول مجموعات البيانات غير المتوازنة الفئات.

تكون مقياس الاسترجاع مفيدة بشكل خاص في تحديد القدرة التنبؤية لنماذج التصنيف التي تكون فيها الفئة الإيجابية نادرة. على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات غير متوازنة الفئات، حيث تظهر الفئة الموجبة لمرض معيّن لدى 10 مرضى فقط من بين مليون مريض. لنفترض أنّ نموذجك قدّم خمسة ملايين توقّع أدّت إلى النتائج التالية:

‫30 موجبًا صحيحًا
20 نتيجة سلبية خاطئة
‫4,999,000 نتيجة سالبة صحيحة
‫950 نتيجة موجبة خاطئة

وبالتالي، فإنّ معدّل استرجاع هذا النموذج هو:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

في المقابل، دقة هذا النموذج هي:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

قد تبدو هذه الدقة العالية مثيرة للإعجاب، ولكنّها في الأساس بلا معنى. يُعدّ الاسترجاع مقياسًا أكثر فائدة لمجموعات البيانات غير المتوازنة الفئات من الدقة.

يمكنك الاطّلاع على التصنيف: الدقة ومقياس المراجعة ومقياس صحة النموذج والمقاييس ذات الصلة للحصول على مزيد من المعلومات.

معدّل التذكّر عند k (recall@k)

#Metric

مقياس لتقييم الأنظمة التي تعرض قائمة مرتبة (منظَّمة) من العناصر. يشير مقياس "الاسترجاع عند k" إلى نسبة العناصر ذات الصلة في أول k عنصر في تلك القائمة من إجمالي عدد العناصر ذات الصلة التي تم عرضها.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

التباين مع الدقة عند k

انقر على الرمز للاطّلاع على مثال.

لنفترض أنّ نموذجًا لغويًا كبيرًا تلقّى طلب البحث التالي:

List the 10 funniest movies of all time in order.

ويعرض النموذج اللغوي الكبير القائمة الموضّحة في العمودَين الأولَين:

الموضع	فيلم	هل المحتوى ذو صلة؟
1	الجنرال	نعم
2	Mean Girls	نعم
3	Platoon	لا
4	وصيفات العروس	نعم
5	This is Spinal Tap	نعم
6	Airplane!	نعم
7	يوم المرموط	نعم
8	Monty Python and the Holy Grail	نعم
9	Oppenheimer‫	لا
10	جاهل	نعم

ثمانية من الأفلام في القائمة السابقة مضحكة جدًا، لذا فهي "عناصر ذات صلة في القائمة". وبالتالي، سيكون الرقم 8 هو المقام في جميع عمليات حساب مقياس الاسترجاع عند k. ماذا عن البسط؟ حسنًا، 3 من العناصر الأربعة الأولى ذات صلة، لذا يكون الاسترجاع عند 4 كما يلي:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 من الأفلام الـ 8 الأولى مضحكة جدًا، لذا يكون معدّل التذكّر عند 8 أفلام هو:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

التعرّف على الاستلزام النصي (RTE)

#Metric

مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تحديد ما إذا كان يمكن استنتاج فرضية (استنتاج منطقي) من مقطع نصي. يتألف كل مثال في تقييم بيئة التنفيذ الغنية (RTE) من ثلاثة أجزاء:

فقرة، عادةً من مقالات إخبارية أو مقالات ويكيبيديا
الفرضية
الإجابة الصحيحة، وهي إحدى القيمتين التاليتين:
- صحيح، ما يعني أنّه يمكن استنتاج الفرضية من الفقرة
- False، ما يعني أنّه لا يمكن استنتاج الفرضية من المقطع

على سبيل المثال:

المقطع: اليورو هو عملة الاتحاد الأوروبي.
الفرضية: تستخدم فرنسا اليورو كعملة.
الاستلزام: صحيح، لأنّ فرنسا جزء من الاتحاد الأوروبي.

‫RTE هو أحد مكوّنات مجموعة SuperGLUE.

نظام الاقتراحات

نظام يختار لكل مستخدم مجموعة صغيرة نسبيًا من العناصر المرغوبة من مجموعة كبيرة من النصوص. على سبيل المثال، قد يقترح نظام اقتراحات الفيديوهات فيديوهَين من مجموعة تضم 100,000 فيديو، فيختار كازابلانكا وقصة فيلادلفيا لمستخدم واحد، والمرأة الخارقة والنمر الأسود لمستخدم آخر. قد يستند نظام اقتراح الفيديوهات إلى عوامل مثل:

الأفلام التي قيّمها أو شاهدها مستخدمون لديهم اهتمامات مشابهة
النوع والمخرجون والممثلون والفئة الديمغرافية المستهدَفة...

يمكنك الاطّلاع على دورة أنظمة الاقتراحات التدريبية لمزيد من المعلومات.

ReCoRD

#Metric

الاختصار الخاص بـ مجموعة بيانات الفهم أثناء القراءة باستخدام الاستدلال المنطقي

وحدة خطية مصحَّحة (ReLU)

#fundamentals

دالّة تفعيل ذات السلوك التالي:

إذا كان الإدخال سالبًا أو صفرًا، يكون الناتج 0.
إذا كان الإدخال موجبًا، يكون الناتج مساويًا للإدخال.

على سبيل المثال:

إذا كان المدخل -3، يكون الناتج 0.
إذا كان المدخل ‎+3، يكون الناتج 3.0.

في ما يلي رسم بياني لدالة ReLU:

مخطط ديكارتي لخطين يحتوي السطر الأول على قيمة y ثابتة تساوي 0، ويمتد على طول المحور x من -infinity,0 إلى 0,-0.
يبدأ السطر الثاني عند النقطة 0,0. يحتوي هذا الخط على ميل يساوي 1، وبالتالي يمتد من 0,0 إلى +infinity,+infinity.

‫ReLU هي دالّة تفعيل شائعة جدًا. على الرغم من سلوكها البسيط، تتيح دالة ReLU للشبكة العصبية تعلُّم العلاقات غير الخطية بين الميزات والتصنيف.

شبكة عصبونية متكرّرة

الشبكة العصبونية التي يتم تشغيلها عمدًا عدة مرات، حيث يتم إدخال أجزاء من كل عملية تشغيل في عملية التشغيل التالية. على وجه التحديد، توفّر الطبقات المخفية من عملية التشغيل السابقة جزءًا من الإدخال إلى الطبقة المخفية نفسها في عملية التشغيل التالية. تُعدّ الشبكات العصبونية المتكرّرة مفيدة بشكل خاص في تقييم التسلسلات، ما يتيح للطبقات المخفية التعلّم من عمليات التشغيل السابقة للشبكة العصبونية على الأجزاء السابقة من التسلسل.

على سبيل المثال، يعرض الشكل التالي شبكة عصبية متكررة تعمل أربع مرات. لاحظ أنّ القيم التي تم تعلّمها في الطبقات المخفية من التشغيل الأول تصبح جزءًا من الإدخال إلى الطبقات المخفية نفسها في التشغيل الثاني. وبالمثل، تصبح القيم التي تم التعرّف عليها في الطبقة المخفية في التشغيل الثاني جزءًا من الإدخال إلى الطبقة المخفية نفسها في التشغيل الثالث. بهذه الطريقة، يتم تدريب الشبكة العصبية المتكررة تدريجيًا وتتوقع معنى التسلسل بأكمله بدلاً من معنى الكلمات الفردية فقط.

شبكة عصبية متكررة (RNN) تعمل أربع مرات لمعالجة أربع كلمات إدخال

النص المرجعي

#generativeAI

ردّ خبير على طلب على سبيل المثال، إذا كان الطلب كما يلي:

ترجِم السؤال "ما اسمك؟" من الإنجليزية إلى الفرنسية.

قد يكون ردّ الخبير على النحو التالي:

Comment vous appelez-vous?

تقيس مقاييس مختلفة (مثل ROUGE) مدى تطابق النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة.

التأمّل

#generativeAI

#agent

استراتيجية لتحسين جودة سير العمل المستند إلى وكيل من خلال فحص (التفكير في) ناتج إحدى الخطوات قبل تمرير هذا الناتج إلى الخطوة التالية

غالبًا ما يكون المدقّق هو LLM نفسه الذي أنشأ الرد (مع أنّه قد يكون نموذجًا لغويًا كبيرًا مختلفًا). كيف يمكن للنموذج اللغوي الكبير نفسه الذي أنشأ الرد أن يكون حكمًا عادلاً على رده؟ يكمن "الحل" في وضع النموذج اللغوي الكبير في حالة ذهنية نقدية (تأملية). تشبه هذه العملية الكاتب الذي يستخدم عقلية إبداعية لكتابة مسودة أولية ثم ينتقل إلى عقلية نقدية لتعديلها.

على سبيل المثال، تخيَّل سير عمل قائمًا على الذكاء الاصطناعي الوكيل تكون خطوته الأولى هي إنشاء نص لأكواب القهوة. قد يكون الطلب لهذه الخطوة كما يلي:

أنت شخص مبدع. أنشئ نصًا فكاهيًا أصليًا يتألف من أقل من 50 حرفًا ومناسبًا لكوب قهوة.

تخيّل الآن مطالبة التأمّل التالية:

أنت من محبّي القهوة. هل تجد الردّ السابق مضحكًا؟

بعد ذلك، قد لا تسمح سير العمل إلا بمرور النصوص التي تحصل على درجة انعكاس عالية إلى المرحلة التالية.

نموذج الانحدار

#fundamentals

بشكل غير رسمي، هو نموذج ينشئ توقّعات رقمية. (في المقابل، ينشئ نموذج التصنيف توقعًا للفئة). على سبيل المثال، جميع ما يلي هي نماذج انحدار:

نموذج يتوقّع قيمة منزل معيّن باليورو، مثل 423,000.
نموذج يتوقّع متوسط العمر المتوقّع لشجرة معيّنة بالسنوات، مثل 23.2
نموذج يتوقّع كمية الأمطار التي ستتساقط بالبوصة في مدينة معيّنة خلال الساعات الست القادمة، مثل 0.18.

في ما يلي نوعان شائعان من نماذج الانحدار:

الانحدار الخطي: يجد هذا النموذج الخط الذي يطابق قيم التصنيفات مع الميزات على أفضل وجه.
الانحدار اللوجستي، الذي ينشئ احتمالية تتراوح بين 0.0 و1.0، ثم يربطها النظام عادةً بتوقّع فئة.

ليس كل نموذج يعرض توقّعات رقمية هو نموذج انحدار. في بعض الحالات، يكون التوقّع الرقمي مجرّد نموذج تصنيف يحتوي على أسماء فئات رقمية. على سبيل المثال، النموذج الذي يتوقّع رمزًا بريديًا رقميًا هو نموذج تصنيف، وليس نموذج انحدار.

التسوية

#fundamentals

أي آلية تقلّل من المطابقة بشكل مفرط. تشمل الأنواع الشائعة من التسوية ما يلي:

L₁ regularization
التسوية ₂
تسوية الإسقاط
إيقاف مبكر (هذه ليست طريقة تسوية رسمية، ولكن يمكن أن تحدّ بشكل فعّال من المطابقة بشكل مفرط)

يمكن أيضًا تعريف التسوية على أنّها العقوبة المفروضة على تعقيد النموذج.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

التسوية غير بديهية. تؤدي زيادة التسوية عادةً إلى زيادة خسارة التدريب، وهو أمر مربك لأنّ الهدف هو تقليل خسارة التدريب.

في الواقع، لا، فالهدف ليس تقليل خسارة التدريب. والهدف هو تقديم توقّعات ممتازة بشأن أمثلة من العالم الواقعي. والجدير بالذكر أنّه على الرغم من أنّ زيادة التسوية تزيد من خسارة التدريب، إلا أنّها تساعد النماذج عادةً في تقديم توقّعات أفضل بشأن الأمثلة الواقعية.

لمزيد من المعلومات، يُرجى الاطّلاع على المطابقة بشكل مفرط: تعقيد النموذج في "دورة مكثّفة عن تعلّم الآلة".

معدّل التسوية

#fundamentals

رقم يحدّد الأهمية النسبية للتسوية أثناء التدريب. تؤدي زيادة معدّل التسوية إلى الحدّ من المطابقة بشكل مفرط، ولكنها قد تقلّل من قدرة النموذج على التوقّع. في المقابل، يؤدي خفض معدّل التسوية أو إغفاله إلى زيادة الملاءمة الزائدة.

انقر على الرمز للاطّلاع على العمليات الحسابية.

يتم عادةً تمثيل معدّل التسوية بالحرف اليوناني لامدا. تعرض معادلة الخسارة المبسّطة التالية تأثير لامدا:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

حيث التسوية هي أي آلية تسوية، بما في ذلك:

L₁ regularization
التسوية ₂

لمزيد من المعلومات، يمكنك الاطّلاع على المطابقة بشكل مفرط: التسوية L2 في "دورة مكثّفة عن تعلّم الآلة".

التعلّم المعزَّز (RL)

هي مجموعة من الخوارزميات التي تتعلّم سياسة مثالية، هدفها تحقيق الحد الأقصى من العائد عند التفاعل مع بيئة. على سبيل المثال، المكافأة النهائية في معظم الألعاب هي الفوز. يمكن أن تصبح أنظمة التعلّم المعزّز خبيرة في لعب ألعاب معقّدة من خلال تقييم تسلسلات الحركات السابقة التي أدّت في النهاية إلى الفوز، وتسلسلات الحركات التي أدّت في النهاية إلى الخسارة.

التعلّم المعزّز من الردود البشرية (RLHF)

#generativeAI

استخدام ملاحظات من مقيّمين بشريين لتحسين جودة ردود النموذج على سبيل المثال، يمكن لآلية RLHF أن تطلب من المستخدمين تقييم جودة ردّ النموذج باستخدام إيموجي 👍 أو 👎. يمكن للنظام بعد ذلك تعديل ردوده المستقبلية استنادًا إلى هذه الملاحظات.

ReLU

#fundamentals

اختصار الوحدة الخطية المصحَّحة

مخزن إعادة التشغيل المؤقت

في الخوارزميات المشابهة لـ DQN، تشير الذاكرة التي يستخدمها العامل إلى تخزين انتقالات الحالة لاستخدامها في إعادة تجربة.

نسخة مطابقة

نسخة (أو جزء من) مجموعة تدريب أو نموذج، يتم تخزينها عادةً على جهاز آخر على سبيل المثال، يمكن أن يستخدم النظام الاستراتيجية التالية لتنفيذ التوازي في البيانات:

وضع نُسخ طبق الأصل من نموذج حالي على أجهزة متعددة
أرسِل مجموعات فرعية مختلفة من مجموعة التدريب إلى كل نسخة طبق الأصل.
تجميع تعديلات المَعلمة

يمكن أن تشير النسخة المتطابقة أيضًا إلى نسخة أخرى من خادم الاستدلال. تؤدي زيادة عدد النسخ المتماثلة إلى زيادة عدد الطلبات التي يمكن للنظام معالجتها في وقت واحد، ولكنها تؤدي أيضًا إلى زيادة تكاليف العرض.

الانحياز لتكرار التقارير

#responsible

إنّ معدّل تكرار كتابة الأشخاص عن إجراءات أو نتائج أو سمات معيّنة لا يعكس معدّل تكرارها في الواقع أو مدى ارتباط سمة معيّنة بفئة من الأفراد. يمكن أن يؤثر الانحياز لتكرار التقارير في تركيبة البيانات التي تتعلّم منها أنظمة تعلُّم الآلة.

على سبيل المثال، في الكتب، تكون الكلمة ضحك أكثر شيوعًا من الكلمة تنفس. من المحتمل أن يحدّد نموذج تعلُّم الآلة الذي يقدّر التكرار النسبي للضحك والتنفس من مجموعة نصوص في كتاب أنّ الضحك أكثر شيوعًا من التنفس.

لمزيد من المعلومات، راجِع الإنصاف: أنواع التحيز في "دورة مكثّفة عن تعلّم الآلة".

التمثيل

عملية ربط البيانات بميزات مفيدة

إعادة الترتيب

المرحلة الأخيرة من نظام الاقتراحات، والتي قد يتم فيها إعادة تقييم العناصر التي تم تسجيلها وفقًا لخوارزمية أخرى (عادةً ما تكون غير مستندة إلى تعلُّم الآلة). تعمل عملية إعادة الترتيب على تقييم قائمة العناصر التي تم إنشاؤها في مرحلة التسجيل، وتتّخذ إجراءات مثل:

استبعاد العناصر التي سبق أن اشتراها المستخدم
زيادة نقاط العناصر الأحدث

يمكنك الاطّلاع على إعادة الترتيب في دورة "أنظمة الاقتراحات" التدريبية لمزيد من المعلومات.

رد

#generativeAI

النصوص أو الصور أو المقاطع الصوتية أو الفيديوهات التي يستنتجها نموذج الذكاء الاصطناعي التوليدي بعبارة أخرى، الطلب هو المعلومات التي يتم إدخالها في نموذج الذكاء الاصطناعي التوليدي، والرد هو النتيجة.

مجموعة الردود

#generativeAI

مجموعة الردود التي يعرضها النموذج اللغوي الكبير استجابةً لمجموعة طلبات

التوليد المعزّز بالاسترجاع

#fundamentals

يشير ذلك إلى أسلوب لتحسين جودة النتائج التي تقدّمها النماذج اللغوية الكبيرة من خلال ربطها بمصادر المعلومات التي تم استرجاعها بعد تدريب النموذج. يحسّن التوليد المعزّز بالاسترجاع دقة ردود النماذج اللغوية الكبيرة من خلال منح النموذج اللغوي الكبير المدرَّب إمكانية الوصول إلى المعلومات التي يتم استرجاعها من قواعد المعرفة أو المستندات الموثوقة.

تشمل الدوافع الشائعة لاستخدام التوليد المعزّز بالاسترجاع ما يلي:

زيادة الدقة الواقعية للردود التي ينشئها النموذج
منح النموذج إذن الوصول إلى معلومات لم يتم تدريبه عليها
تغيير المعرفة التي يستخدمها النموذج
تمكين النموذج من الاستشهاد بالمصادر

على سبيل المثال، لنفترض أنّ تطبيقًا للكيمياء يستخدم واجهة برمجة التطبيقات PaLM لإنشاء ملخّصات ذات صلة بطلبات بحث المستخدمين. عندما يتلقّى الخلفية في التطبيق طلب بحث، تقوم الخلفية بما يلي:

يبحث عن البيانات ذات الصلة بطلب بحث المستخدم ("يسترجعها").
إضافة بيانات الكيمياء ذات الصلة إلى طلب بحث المستخدم
يطلب من النموذج اللغوي الكبير إنشاء ملخّص استنادًا إلى البيانات الملحقة.

العودة

في التعلّم المعزّز، عند توفّر سياسة وحالة معيّنتَين، يكون العائد هو مجموع كل المكافآت التي يتوقّع الوكيل الحصول عليها عند اتّباع السياسة من الحالة إلى نهاية الحلقة. يأخذ الوكيل في الاعتبار الطبيعة المتأخرة للمكافآت المتوقّعة من خلال خصم المكافآت وفقًا لعمليات الانتقال بين الحالات المطلوبة للحصول على المكافأة.

لذلك، إذا كان عامل الخصم هو $\gamma$، و $r_0, \ldots, r_{N}$ يشير إلى المكافآت حتى نهاية الحلقة، يكون احتساب العائد على النحو التالي:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

مكافأة

في التعلّم التعزيزي، النتيجة الرقمية لاتّخاذ إجراء في حالة، كما يحدّدها البيئة

التسوية التربيعية

مرادف التسوية₂ يُستخدَم مصطلح التسوية التربيعية بشكل متكرر أكثر في سياقات الإحصاء البحت، بينما يُستخدَم مصطلح التسوية باستخدام ₂ بشكل متكرر أكثر في سياقات تعلّم الآلة.

RNN

اختصار الشبكات العصبونية المتكرّرة

منحنى الأمثلة الإيجابية

#fundamentals

#Metric

رسم بياني لمعدّل الموجب الصحيح مقابل معدّل الموجب الخاطئ لقيم مختلفة لحدود التصنيف في التصنيف الثنائي.

يشير شكل منحنى ROC إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. لنفترض مثلاً أنّ نموذج تصنيف ثنائي يفصل تمامًا بين جميع الفئات السلبية وجميع الفئات الإيجابية:

خط أعداد يتضمّن 8 أمثلة موجبة على الجانب الأيمن و7 أمثلة سالبة على الجانب الأيسر

يبدو منحنى ROC للنموذج السابق على النحو التالي:

منحنى ROC يمثّل المحور الأفقي معدّل الموجب الخاطئ، ويمثّل المحور العمودي معدّل الموجب الصائب. المنحنى على شكل حرف L مقلوب. يبدأ المنحنى
من النقطة (0.0,0.0) ويتّجه مباشرةً إلى النقطة (0.0,1.0). ثم ينتقل المنحنى
من (0.0,1.0) إلى (1.0,1.0).

في المقابل، يوضح الرسم البياني التالي قيم الانحدار اللوجستي الأولية لنموذج سيئ لا يمكنه الفصل بين الفئات السلبية والفئات الإيجابية على الإطلاق:

خط أعداد يتضمّن أمثلة إيجابية وفئات سلبية مختلطة تمامًا

يبدو منحنى ROC لهذا النموذج على النحو التالي:

منحنى ROC، وهو في الواقع خط مستقيم من (0.0,0.0)
إلى (1.0,1.0).

في الوقت نفسه، في العالم الحقيقي، تفصل معظم نماذج التصنيف الثنائي بين الفئات الإيجابية والسلبية إلى حد ما، ولكن ليس بشكل مثالي عادةً. لذا، يقع منحنى ROC النموذجي في مكان ما بين الحدّين الأقصى والأدنى:

منحنى ROC يمثّل المحور الأفقي معدّل الموجب الخاطئ، ويمثّل المحور العمودي معدّل الموجب الصائب. يقترب منحنى ROC من قوس متذبذب
يمر بنقاط البوصلة من الغرب إلى الشمال.

تحدّد النقطة الأقرب إلى (0.0,1.0) على منحنى ROC نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر العديد من المشاكل الأخرى في العالم الحقيقي على اختيار عتبة التصنيف المثلى. على سبيل المثال، قد تتسبّب النتائج السلبية الخاطئة في مشاكل أكثر من النتائج الإيجابية الخاطئة.

يلخّص مقياس عددي يُسمى AUC منحنى ROC في قيمة واحدة ذات فاصلة عائمة.

التلقين حسب الدور

#generativeAI

الطلب هو عبارة عن إدخال يبدأ عادةً بالضمير أنت، ويطلب من نموذج الذكاء الاصطناعي التوليدي التظاهر بأنه شخص معيّن أو يؤدي دورًا معيّنًا عند إنشاء الرد. يمكن أن يساعد الطلب بتحديد الدور نموذج الذكاء الاصطناعي التوليدي في اتّخاذ "العقلية" المناسبة من أجل إنشاء ردّ أكثر فائدة. على سبيل المثال، قد تكون أي من الطلبات التالية المتعلقة بالأدوار مناسبة حسب نوع الرد الذي تبحث عنه:

أنت حاصل على درجة الدكتوراه في علوم الكمبيوتر.

أنت مهندس برامج تحب تقديم شروحات صبورة حول لغة Python للطلاب الجدد في مجال البرمجة.

أنت بطل أفلام أكشن ولديك مجموعة محدّدة جدًا من مهارات البرمجة. أريد التأكّد من أنّك ستعثر على عنصر معيّن في قائمة Python.

الجذر

#df

العقدة الأولية (الشرط الأول) في شجرة القرار تضع المخططات عادةً الجذر في أعلى شجرة القرارات. على سبيل المثال:

شجرة قرارات تتضمّن شرطَين وثلاثة فروع نهائية شرط البدء (x > 2) هو الجذر.

الدليل الجذري

#TensorFlow

الدليل الذي تحدّده لاستضافة الأدلة الفرعية لملفات نقاط التحقّق والأحداث في TensorFlow الخاصة بنماذج متعدّدة

جذر الخطأ التربيعي المتوسّط (RMSE)

#fundamentals

#Metric

الجذر التربيعي للخطأ التربيعي المتوسّط

الثبات الدوراني

في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير اتجاه الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على مضرب تنس سواء كان متجهًا للأعلى أو للأسفل أو إلى الجانب. يُرجى العِلم أنّ الثبات الدوراني ليس مرغوبًا فيه دائمًا، فمثلاً، لا يجب تصنيف الرقم 9 المقلوب على أنّه 9.

راجِع أيضًا الثبات الانتقالي والثبات الحجمي.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

مجموعة من المقاييس التي تقيّم نماذج التلخيص التلقائي والترجمة الآلية. تحدّد مقاييس ROUGE مدى تطابق النص المرجعي مع النص الذي أنشأه نموذج تعلُّم الآلة. يقيس كل مقياس من مقاييس عائلة ROUGE التداخل بطريقة مختلفة. تشير نتائج ROUGE الأعلى إلى تشابه أكبر بين النص المرجعي والنص الذي تم إنشاؤه مقارنةً بنتائج ROUGE الأقل.

ينتج عادةً كل فرد من عائلة مقاييس ROUGE المقاييس التالية:

الدقة
التذكُّر
F₁

للاطّلاع على التفاصيل والأمثلة، يُرجى مراجعة:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

أحد مقاييس عائلة ROUGE يركّز على طول أطول تسلسل فرعي مشترك في النص المرجعي والنص الذي تم إنشاؤه. تحسب الصيغ التالية مقياسَي المراجعة ومقياس صحة النموذج لمقياس ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

يمكنك بعد ذلك استخدام F₁ لتجميع مقياسَي ROUGE-L recall وROUGE-L precision في مقياس واحد:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

انقر على الرمز للحصول على مثال على عملية احتساب مقياس ROUGE-L.

ضَع في اعتبارك النص المرجعي والنص الذي تم إنشاؤه التاليَين.

الفئة	مَن أنتج؟	نص
النص المرجعي	مترجم بشري	أريد فهم مجموعة متنوعة من الأشياء.
النص الذي يتم إنشاؤه	نموذج تعلُّم الآلة	أريد تعلُّم الكثير من الأشياء.

وبناءً على ذلك:

أطول تسلسل فرعي مشترك هو 5 (أريد أن أفعل بعض الأمور)
عدد الكلمات في النص المرجعي هو 9.
عدد الكلمات في النص الذي تم إنشاؤه هو 7.

نتيجةً لذلك:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

يتجاهل مقياس ROUGE-L أي أسطر جديدة في النص المرجعي والنص الذي تم إنشاؤه، لذا يمكن أن يتضمّن أطول تسلسل فرعي مشترك عدة جمل. عندما يتضمّن النص المرجعي والنص الذي تم إنشاؤه جملًا متعددة، يكون مقياس ROUGE-Lsum، وهو صيغة من مقياس ROUGE-L، أفضل بشكل عام. تحدّد مقياس ROUGE-Lsum أطول تسلسل فرعي مشترك لكل جملة في فقرة، ثم يحسب متوسط أطول التسلسلات الفرعية المشتركة.

انقر على الرمز للحصول على مثال لحساب ROUGE-Lsum.

ضَع في اعتبارك النص المرجعي والنص الذي تم إنشاؤه التاليَين.

الفئة	مَن أنتج؟	نص
النص المرجعي	مترجم بشري	سطح المريخ جاف. وتقع كل المياه تقريبًا في أعماق الأرض.
النص الذي يتم إنشاؤه	نموذج تعلُّم الآلة	سطح المريخ جاف. ومع ذلك، فإنّ الغالبية العظمى من المياه توجد تحت الأرض.

ولذلك:

	الجملة الأولى	الجملة الثانية
أطول تسلسل مشترك	‫2 (Mars dry)	‫3 (المياه تحت الأرض)
طول جملة النص المرجعي	6	7
طول الجملة في النص الذي تم إنشاؤه	5	8

نتيجةً لذلك:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

مجموعة من المقاييس ضمن عائلة ROUGE تقارن بين N-grams المشتركة بحجم معيّن في النص المرجعي والنص الذي تم إنشاؤه. على سبيل المثال:

يقيس مقياس ROUGE-1 عدد الرموز المميزة المشتركة في النص المرجعي والنص الذي تم إنشاؤه.
يقيس مقياس ROUGE-2 عدد ثنائيات الحروف (2-grams) المشتركة بين النص المرجعي والنص الذي تم إنشاؤه.
يقيس مقياس ROUGE-3 عدد الثلاثيات المشتركة (3-grams) في النص المرجعي والنص الذي تم إنشاؤه.

يمكنك استخدام الصيغ التالية لاحتساب مقياس المراجعة ROUGE-N ومقياس صحة النموذج ROUGE-N لأي عنصر من عناصر عائلة ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

يمكنك بعد ذلك استخدام F₁ لتجميع مقياس المراجعة ومقياس صحة النموذج في ROUGE-N في مقياس واحد:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

انقر على الرمز للاستماع إلى مثال.

لنفترض أنّك قررت استخدام مقياس ROUGE-2 لقياس فعالية ترجمة نموذج تعلُّم الآلة مقارنةً بترجمة بشرية.

الفئة	مَن أنتج؟	نص	Bigrams
النص المرجعي	مترجم بشري	أريد فهم مجموعة متنوعة من الأشياء.	أريد، أريد أن، أن أفهم، أفهم مجموعة، مجموعة واسعة، واسعة من، من الأشياء
النص الذي يتم إنشاؤه	نموذج تعلُّم الآلة	أريد تعلُّم الكثير من الأشياء.	أريد أن أتعلّم الكثير من الأشياء

وبناءً على ذلك:

عدد الثنائيات المتطابقة هو 3 (أريد وأريد أن ومن الأشياء).
عدد الثنائيات في النص المرجعي هو 8.
عدد الثنائيات في النص الذي تم إنشاؤه هو 6.

نتيجةً لذلك:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

شكل متسامح من ROUGE-N يتيح مطابقة skip-gram. أي أنّ مقياس ROUGE-N لا يحتسب سوى N-grams التي تتطابق تمامًا، ولكن مقياس ROUGE-S يحتسب أيضًا N-grams المفصولة بكلمة واحدة أو أكثر. على سبيل المثال، يمكنك القيام بما يلي:

النص المرجعي: غيوم بيضاء
النص الذي تم إنشاؤه: سُحب بيضاء متطايرة

عند احتساب مقياس ROUGE-N، لا يتطابق المقطع الثنائي غيوم بيضاء مع غيوم بيضاء منتفخة. ومع ذلك، عند احتساب مقياس ROUGE-S، تتطابق الغيوم البيضاء مع الغيوم البيضاء المتصاعدة.

وكيل جهاز التوجيه

#agent

هو برنامج يصنّف طلب بحث أرسله مستخدم ثم يستدعي البرنامج الأنسب للتعامل معه.

معامل التحديد

#Metric

مقياس الانحدار الذي يشير إلى مقدار التباين في تصنيف بسبب ميزة فردية أو مجموعة الخصائص. قيمة R^2 هي قيمة بين 0 و1، ويمكن تفسيرها على النحو التالي:

تشير قيمة R-squared البالغة 0 إلى أنّ أيًا من الاختلافات في الوسم لا يعود إلى مجموعة الخصائص.
يشير معامل التحديد البالغ 1 إلى أنّ كل التباين في الوسم يرجع إلى مجموعة الخصائص.
يشير معامل تحديد بين 0 و1 إلى مدى إمكانية توقّع تباين الوسم من ميزة معيّنة أو مجموعة الخصائص. على سبيل المثال، يعني معامل التحديد البالغ 0.10 أنّ %10 من التباين في الوسم يرجع إلى مجموعة الخصائص، ويعني معامل التحديد البالغ 0.20 أنّ %20 من التباين يرجع إلى مجموعة الخصائص، وهكذا.

معامل تحديد (R-squared) هو مربع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأساسية.

RTE

#Metric

اختصار التعرّف على الاستلزام النصي

S

انحياز في جمع العيّنات

#responsible

اطّلِع على الانحياز في الاختيار.

جمع العيّنات مع الاستبدال

#df

طريقة لاختيار عناصر من مجموعة من العناصر المرشّحة، حيث يمكن اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الإحلال" أنّه بعد كل عملية اختيار، يتم إرجاع العنصر المحدّد إلى مجموعة العناصر المرشّحة. أما الطريقة المعاكسة، أي أخذ العيّنات بدون استبدال، فتعني أنّه لا يمكن اختيار عنصر مرشّح إلا مرة واحدة.

على سبيل المثال، ضع في اعتبارك مجموعة الفاكهة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفترض أنّ النظام يختار fig عشوائيًا كعنصر أول. في حال استخدام أخذ العيّنات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، إنّها المجموعة نفسها كما في السابق، لذا قد يختار النظام fig مرة أخرى.

في حال استخدام أخذ العيّنات بدون استبدال، لا يمكن اختيار عيّنة مرة أخرى بعد اختيارها. على سبيل المثال، إذا اختار النظام عشوائيًا fig كأول عيّنة، لا يمكن اختيار fig مرة أخرى. لذلك، يختار النظام العيّنة الثانية من المجموعة التالية (المخفَّضة):

fruit = {kiwi, apple, pear, cherry, lime, mango}

انقر على الرمز للاطّلاع على ملاحظات إضافية.

تتسبّب كلمة استبدال في مصطلح جمع العيّنات مع الاستبدال في إرباك الكثير من الأشخاص. في اللغة الإنجليزية، تعني كلمة replacement "استبدال". ومع ذلك، فإنّ جمع العيّنات مع الاستبدال يستخدم في الواقع التعريف الفرنسي لكلمة استبدال، ما يعني "إعادة شيء ما إلى مكانه".

تتم ترجمة الكلمة الإنجليزية replacement إلى الكلمة الفرنسية remplacement.

SavedModel

#TensorFlow

التنسيق المقترَح لحفظ نماذج TensorFlow واستردادها ‫SavedModel هو تنسيق تسلسل قابل للاسترداد ومستقل عن اللغة، ما يتيح للأنظمة والأدوات ذات المستوى الأعلى إنشاء نماذج TensorFlow واستهلاكها وتحويلها.

راجِع قسم الحفظ والاستعادة في دليل مبرمجي TensorFlow للحصول على التفاصيل الكاملة.

موفّر

#TensorFlow

عنصر TensorFlow المسؤول عن حفظ نقاط التحقّق من النموذج

الكمية القياسية

عدد واحد أو سلسلة واحدة يمكن تمثيلها على شكل متّجه متعدّد الأبعاد برتبة 0. على سبيل المثال، ينشئ كل سطر من سطور الرمز البرمجي التالية قيمة عددية واحدة في TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

التحجيم

أي تحويل أو أسلوب رياضي يغيّر نطاق تصنيف أو قيمة ميزة أو كليهما. بعض أشكال القياس مفيدة جدًا في عمليات التحويل، مثل التسوية.

تشمل الأشكال الشائعة للتوسيع المفيدة في تعلُّم الآلة ما يلي:

القياس الخطي الذي يستخدم عادةً مزيجًا من الطرح والقسمة لاستبدال القيمة الأصلية برقم يتراوح بين -1 و+1 أو بين 0 و1
القياس اللوغاريتمي، الذي يستبدل القيمة الأصلية بلوغاريتمها
التسوية باستخدام النتيجة المعيارية، والتي تستبدل القيمة الأصلية بقيمة نقطة عائمة تمثّل عدد الانحرافات المعيارية عن متوسط هذه السمة

scikit-learn

منصة شائعة مفتوحة المصدر لتعلُّم الآلة يمكنك الاطّلاع على scikit-learn.org.

تسجيل النتائج

#Metric

الجزء من نظام الاقتراحات الذي يقدّم قيمة أو ترتيبًا لكل عنصر تم إنتاجه في مرحلة إنشاء المرشّحين.

الانحياز في الاختيار

#responsible

أخطاء في الاستنتاجات المستخلَصة من البيانات المستندة إلى عيّنات بسبب عملية اختيار تؤدي إلى اختلافات منهجية بين العيّنات المرصودة في البيانات والعيّنات غير المرصودة تتوفّر أشكال التحيز في الاختيار التالية:

انحياز في التغطية: لا تتطابق المجموعة الإحصائية الممثلة في مجموعة البيانات مع المجموعة الإحصائية التي يتنبأ بها نموذج تعلُّم الآلة.
انحياز في جمع العيّنات: لا يتم جمع البيانات بشكل عشوائي من المجموعة المستهدَفة.
الانحياز لعدم الإجابة (يُعرف أيضًا باسم تحيّز المشاركة): يختار المستخدمون من مجموعات معيّنة عدم المشاركة في الاستطلاعات بمعدلات مختلفة عن المستخدمين من مجموعات أخرى.

على سبيل المثال، لنفترض أنّك بصدد إنشاء نموذج تعلُّم آلي يتوقّع مدى استمتاع الأشخاص بفيلم معيّن. لجمع بيانات التدريب، يمكنك توزيع استطلاع على جميع الأشخاص في الصف الأمامي من قاعة سينما تعرض الفيلم. قد تبدو هذه الطريقة معقولة لجمع مجموعة بيانات، ولكن قد يؤدي هذا النوع من جمع البيانات إلى حدوث أشكال الانحياز في الاختيار التالية:

انحياز في التغطية: من خلال أخذ عيّنات من مجموعة من الأشخاص الذين اختاروا مشاهدة الفيلم، قد لا تكون توقّعات نموذجك قابلة للتعميم على الأشخاص الذين لم يعبّروا عن هذا المستوى من الاهتمام بالفيلم.
انحياز في جمع العيّنات: بدلاً من أخذ عيّنات عشوائية من المجموعة المستهدَفة (جميع الأشخاص في السينما)، أخذت عيّنات من الأشخاص في الصف الأمامي فقط. من المحتمل أنّ الأشخاص الجالسين في الصف الأمامي كانوا أكثر اهتمامًا بالفيلم من الأشخاص الجالسين في الصفوف الأخرى.
الانحياز لعدم الإجابة: بشكل عام، يميل الأشخاص الذين لديهم آراء قوية إلى الرد على الاستطلاعات الاختيارية بشكل متكرر أكثر من الأشخاص الذين لديهم آراء معتدلة. بما أنّ استطلاع الأفلام اختياري، من المرجّح أن تشكّل الردود توزيعًا ثنائي المنوال بدلاً من التوزيع الطبيعي (على شكل جرس).

الاهتمام الذاتي (يُعرف أيضًا باسم طبقة الاهتمام الذاتي)

طبقة شبكة عصبية تحوّل تسلسلاً من عمليات التضمين (مثل عمليات تضمين الرموز المميزة) إلى تسلسل آخر من عمليات التضمين. يتم إنشاء كل تضمين في التسلسل الناتج من خلال دمج المعلومات من عناصر التسلسل المدخل من خلال آلية انتباه.

يشير الجزء الذاتي من الانتباه الذاتي إلى تسلسل الانتباه إلى نفسه بدلاً من سياق آخر. تُعدّ آلية الانتباه الذاتي إحدى اللبنات الأساسية في المحوّلات، وتستخدم مصطلحات البحث في القاموس، مثل "الاستعلام" و"المفتاح" و "القيمة".

تبدأ طبقة الانتباه الذاتي بتسلسل من تمثيلات الإدخال، تمثيل واحد لكل كلمة. يمكن أن يكون تمثيل الإدخال لكلمة عبارة عن تضمين بسيط. بالنسبة إلى كل كلمة في تسلسل الإدخال، تقيِّم الشبكة مدى صلة الكلمة بكل عنصر في التسلسل الكامل للكلمات. تحدّد نتائج الصلة مدى تضمين التمثيل النهائي للكلمة لتمثيلات الكلمات الأخرى.

على سبيل المثال، فكِّر في الجملة التالية:

لم يعبر الحيوان الشارع لأنّه كان متعبًا جدًا.

يوضّح الرسم التوضيحي التالي (من Transformer: A Novel Neural Network Architecture for Language Understanding) نمط الانتباه في طبقة الانتباه الذاتي للضمير it، حيث يشير مدى عتامة كل خط إلى مقدار مساهمة كل كلمة في التمثيل:

تظهر الجملة التالية مرتين: لم يعبر الحيوان الشارع لأنّه كان متعبًا جدًا. تربط الخطوط الضمير it في إحدى الجمل بخمسة رموز (The وanimal وstreet وit والنقطة) في الجملة الأخرى. يكون الارتباط بين الضمير it وكلمة animal هو الأقوى.

تُبرز طبقة الانتباه الذاتي الكلمات ذات الصلة بـ "ذلك". في هذه الحالة، تعلّمت طبقة الانتباه تمييز الكلمات التي قد تشير إليها، مع إعطاء أعلى وزن لكلمة حيوان.

بالنسبة إلى تسلسل من n رموز مميزة، يحوّل الانتباه الذاتي تسلسلًا من عمليات التضمين n مرات منفصلة، مرة واحدة في كل موضع في التسلسل.

يمكنك أيضًا الرجوع إلى الانتباه والانتباه الذاتي المتعدد الرؤوس.

التصحيح الذاتي

#agent

قدرة الوكيل على رصد خطأ في الناتج الذي يقدّمه ثم تجربة أسلوب مختلف

التعلّم الذاتي الموجَّه

مجموعة من التقنيات لتحويل مشكلة تعلُّم الآلة غير المراقَب إلى مشكلة تعلُّم الآلة الموجَّه من خلال إنشاء تصنيفات بديلة من أمثلة غير مصنَّفة.

تستخدم بعض النماذج المستندة إلى Transformer، مثل BERT، التعلّم الذاتي الموجّه.

التدريب الذاتي الموجَّه هو أحد أساليب التعلّم شبه الموجَّه.

التدريب الذاتي

هي نوع من التعلّم الذاتي بإشراف جزئي، تكون مفيدة بشكل خاص عند استيفاء جميع الشروط التالية:

نسبة الأمثلة غير المصنَّفة إلى الأمثلة المصنَّفة في مجموعة البيانات مرتفعة.
هذه مشكلة تصنيف.

تعمل عملية التدريب الذاتي من خلال تكرار الخطوتَين التاليتَين إلى أن يتوقف النموذج عن التحسّن:

استخدِم تعلُّم الآلة الموجَّه لتدريب نموذج على الأمثلة المصنَّفة.
استخدِم النموذج الذي تم إنشاؤه في الخطوة 1 لإنشاء توقعات (تصنيفات) بشأن الأمثلة غير المصنَّفة، ونقْل الأمثلة التي تتضمّن درجة ثقة عالية إلى الأمثلة المصنَّفة مع التصنيف المتوقّع.

لاحظ أنّ كل تكرار للخطوة 2 يضيف المزيد من الأمثلة المصنّفة التي يمكن للخطوة 1 التدريب عليها.

الذاكرة الدلالية

المعلومات التي يتضمّنها نموذج اللغة الكبير عند انتهاء التدريب على سبيل المثال، تتضمّن الذاكرة الدلالية معرفة ممتازة بقواعد اللغة والمفردات والحقائق التي تم تدريبها عليها بشكل صريح.

لا تتضمّن الذاكرة الدلالية المعلومات التي يتم جمعها من خلال الجيل المعزّز بالاسترجاع.

قارِن بين الذاكرة الدلالية والذاكرة العرضية.

التعلّم شبه الموجَّه

تدريب نموذج على بيانات تتضمّن بعض الأمثلة التدريبية المصنَّفة وأخرى غير مصنَّفة تتمثّل إحدى تقنيات التعلّم شبه الموجَّه في استنتاج التصنيفات للأمثلة غير المصنَّفة، ثم التدريب على التصنيفات المستنتَجة لإنشاء نموذج جديد. يمكن أن يكون التعلّم شبه الموجَّه مفيدًا إذا كان الحصول على التصنيفات مكلفًا ولكن تتوفّر أمثلة غير مصنَّفة بكميات كبيرة.

التدريب الذاتي هو إحدى تقنيات التعلّم شبه الموجَّه.

سمة حسّاسة

#responsible

سمة بشرية قد تُمنح اعتبارًا خاصًا لأسباب قانونية أو أخلاقية أو اجتماعية أو شخصية

تحليل المشاعر

استخدام خوارزميات إحصائية أو خوارزميات تعلُّم آلي لتحديد الموقف العام لمجموعة معيّنة، سواء كان إيجابيًا أو سلبيًا، تجاه خدمة أو منتج أو مؤسسة أو موضوع على سبيل المثال، باستخدام فهم اللغة الطبيعية، يمكن لخوارزمية إجراء تحليل للمشاعر بشأن الملاحظات النصية الواردة من دورة جامعية لتحديد مدى إعجاب الطلاب بالدورة أو عدم إعجابهم بها بشكل عام.

اطّلِع على دليل تصنيف النصوص للحصول على مزيد من المعلومات.

نموذج تسلسلي

نموذج تعتمد مدخلاته على بعضها البعض بشكل تسلسلي على سبيل المثال، توقّع الفيديو التالي الذي سيشاهده المستخدم من سلسلة فيديوهات شاهدها سابقًا.

مهمة من تسلسل إلى تسلسل

مهمة تحوّل تسلسل إدخال من الرموز المميزة إلى تسلسل إخراج من الرموز المميزة. على سبيل المثال، هناك نوعان شائعان من مهام التسلسل إلى التسلسل، وهما:

المترجمون:
- تسلسل الإدخال النموذجي: "أحبك".
- تسلسل الناتج النموذجي: "Je t'aime".
الإجابة عن الأسئلة:
- مثال على تسلسل الإدخال: "هل أحتاج إلى سيارتي في نيويورك؟"
- تسلسل الإخراج النموذجي: "لا، من الأفضل أن تترك سيارتك في المنزل".

حصة طعام

عملية إتاحة نموذج مُدرَّب لتقديم توقّعات من خلال الاستنتاج الحي أو الاستنتاج المؤخَّر.

الشكل (Tensor)

عدد العناصر في كل بُعد من الموتر. يتم تمثيل الشكل كقائمة من الأعداد الصحيحة. على سبيل المثال، يحتوي الموتر الثنائي الأبعاد التالي على شكل [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

تستخدم TensorFlow تنسيق الصف الرئيسي (نمط C) لتمثيل ترتيب الأبعاد، ولهذا السبب يكون الشكل في TensorFlow هو [3,4] بدلاً من [4,3]. بعبارة أخرى، في TensorFlow Tensor ثنائي الأبعاد، يكون الشكل هو [عدد الصفوف، عدد الأعمدة].

الشكل الثابت هو شكل موتر يكون معروفًا في وقت الترجمة البرمجية.

يكون الشكل الديناميكي غير معروف في وقت الترجمة البرمجية، وبالتالي يعتمد على بيانات وقت التشغيل. يمكن تمثيل هذا المتّجه متعدّد الأبعاد باستخدام بُعد عنصر نائب في TensorFlow، كما هو موضّح في [3, ?].

جزء

#TensorFlow

#GoogleCloud

تقسيم منطقي لمجموعة التدريب أو النموذج عادةً، تنشئ بعض العمليات أجزاءً من خلال تقسيم الأمثلة أو المَعلمات إلى أجزاء متساوية الحجم (عادةً). بعد ذلك، يتمّ تعيين كل جزء إلى جهاز مختلف.

يُطلق على تقسيم النموذج اسم التوازي على مستوى النموذج، بينما يُطلق على تقسيم البيانات اسم التوازي على مستوى البيانات.

الانكماش

#df

معلَمة فائقة في تعزيز التدرّج التي تتحكّم في المطابقة بشكل مفرط يشبه الانكماش في تعزيز التدرّج معدّل التعلّم في النزول المتدرّج. الانكماش هو قيمة عشرية تتراوح بين 0.0 و1.0. تؤدي قيمة الانكماش المنخفضة إلى تقليل التكيّف الزائد أكثر من قيمة الانكماش الكبيرة.

التقييم جنبًا إلى جنب

مقارنة جودة نموذجَين من خلال تقييم استجاباتهما للمطالبة نفسها على سبيل المثال، لنفترض أنّ الطلب التالي تم تقديمه إلى نموذجَين مختلفَين:

أنشِئ صورة لكلب ظريف يلهو بثلاث كرات.

في التقييم جنبًا إلى جنب، يختار المقيّم الصورة "الأفضل" (الأكثر دقة؟ أكثر جمالاً؟ ألطف؟).

الدالّة الإسية

#fundamentals

دالة رياضية "تضغط" قيمة إدخال في نطاق محدود، عادةً من 0 إلى 1 أو من -1 إلى +1. وهذا يعني أنّه يمكنك تمرير أي رقم (اثنان أو مليون أو مليار سالب أو أي رقم آخر) إلى دالة Sigmoid وسيظل الناتج ضمن النطاق المحدود. يبدو الرسم البياني لدالة التنشيط السينية على النحو التالي:

تتعدّد استخدامات الدالة السينية في التعلّم الآلي، ومنها:

تحويل الناتج الأوّلي لنموذج الانحدار اللوجستي أو نموذج الانحدار المتعدد الحدود إلى احتمالية
العمل كدالة تنشيط في بعض الشبكات العصبية

انقر على الرمز للاطّلاع على العمليات الحسابية.

تتضمّن الدالة السينية على رقم إدخال x الصيغة التالية:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

في تعلُّم الآلة، يمثّل x بشكل عام مجموعًا مرجّحًا.

مقياس التشابه

#clustering

#Metric

في خوارزميات التجميع، يشير ذلك المصطلح إلى المقياس المستخدَم لتحديد مدى التشابه بين أي مثالَين.

برنامج واحد / بيانات متعددة (SPMD)

يشير ذلك إلى أسلوب توازٍ يتم فيه تنفيذ عملية حسابية نفسها على بيانات إدخال مختلفة بشكل متوازٍ على أجهزة مختلفة. تهدف تقنية SPMD إلى الحصول على النتائج بشكل أسرع. وهو النمط الأكثر شيوعًا للبرمجة المتوازية.

الثبات الحجمي

في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيُّر حجم الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على قطة سواء كانت تستهلك مليوني بكسل أو 200 ألف بكسل. يُرجى العِلم أنّه حتى أفضل خوارزميات تصنيف الصور لا تزال لها حدود عملية بشأن ثبات الحجم. على سبيل المثال، من غير المرجّح أن تصنّف خوارزمية (أو شخص) صورة قطة بشكل صحيح إذا كانت تستهلك 20 بكسل فقط.

راجِع أيضًا الثبات الانتقالي والثبات الدوراني.

يمكنك الاطّلاع على دورة التجميع لمزيد من المعلومات.

الرسم

#clustering

في تعلُّم الآلة غير المراقَب، يتم استخدام فئة من الخوارزميات التي تجري تحليلاً أوليًا لتحديد التشابه في الأمثلة. تستخدم خوارزميات التخطيط دالة تجزئة حساسة للموقع الجغرافي لتحديد النقاط التي من المحتمل أن تكون متشابهة، ثم يتم تجميعها في حِزم.

يقلّل التخطيط من العمليات الحسابية المطلوبة لاحتساب التشابه في مجموعات البيانات الكبيرة. بدلاً من حساب التشابه لكل زوج من الأمثلة في مجموعة البيانات، نحسب التشابه لكل زوج من النقاط داخل كل مجموعة فقط.

skip-gram

مخطط N-gram الذي قد يحذف (أو "يتخطّى") كلمات من السياق الأصلي، ما يعني أنّ الكلمات N قد لا تكون متجاورة في الأصل وبشكل أكثر دقة، فإنّ "k-skip-n-gram" هو n-gram يمكن فيه تخطّي ما يصل إلى k كلمة.

على سبيل المثال، تحتوي عبارة "the quick brown fox" على ثنائيات الحروف المحتملة التالية:

"الكلب السريع"
"quick brown"
"ثعلب بني"

"1-skip-2-gram" هي عبارة عن زوج من الكلمات بينهما كلمة واحدة على الأكثر. لذلك، تحتوي عبارة "the quick brown fox" على ما يلي من 2-grams مع تخطّي كلمة واحدة:

"the brown"
"الثعلب السريع"

بالإضافة إلى ذلك، جميع الثنائيات هي أيضًا ثنائيات بمسافة فاصلة واحدة، لأنّه يمكن تخطّي أقل من كلمة واحدة.

تكون skip-grams مفيدة لفهم المزيد من السياق المحيط بكلمة معيّنة. في المثال، تم ربط الكلمة "fox" مباشرةً بالكلمة "quick" في مجموعة 1-skip-2-grams، ولكن ليس في مجموعة 2-grams.

تساعد skip-grams في تدريب نماذج تضمين الكلمات.

softmax

#fundamentals

دالة تحدّد احتمالات كل فئة ممكنة في نموذج تصنيف متعدّد الفئات. ويجب أن يكون مجموع الاحتمالات 1.0. على سبيل المثال، يوضّح الجدول التالي كيف توزع دالة softmax الاحتمالات المختلفة:

الصورة عبارة عن...	الاحتمالية
كلب	.85
هرّ	.13
حصان	.02

يُطلق على Softmax أيضًا اسم دالّة softmax الكاملة.

يختلف عن تحليل العينات المُحتملة.

انقر على الرمز للاطّلاع على العمليات الحسابية.

معادلة Softmax هي كما يلي:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

حيث:

$\sigma_i$ هو متّجه الناتج. يحدّد كل عنصر من عناصر متجه الناتج احتمالية هذا العنصر. ويجب أن يكون مجموع كل العناصر في المتّجه الناتج 1.0. يحتوي المتّجه الناتج على عدد العناصر نفسه الموجود في المتّجه المُدخَل، $z$.
‫$z$ هو متّجه الإدخال. يحتوي كل عنصر من عناصر متجه الإدخال على قيمة نقطة عائمة.
‫$K$ هو عدد العناصر في المتّجه المُدخَل (والمتّجه الناتج).

على سبيل المثال، لنفترض أنّ متجه الإدخال هو:

[1.2, 2.5, 1.8]

لذلك، تحتسب دالة softmax المقام على النحو التالي:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

وبالتالي، يكون احتمال softmax لكل عنصر كما يلي:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

وبالتالي، يكون المتّجه الناتج كما يلي:

$$\sigma = [0.154, 0.565, 0.281]$$

مجموع العناصر الثلاثة في $\sigma$ هو 1.0. أخيرًا!

ضبط الطلبات الليّنة

#generativeAI

هي تقنية تتيح تحسين نموذج لغوي كبير لأداء مهمة معيّنة، بدون الحاجة إلى تحسين مكثّف للموارد. بدلاً من إعادة تدريب جميع الأوزان في النموذج، تعمل ميزة "ضبط المطالبات السلس" تلقائيًا على تعديل مطالبة لتحقيق الهدف نفسه.

عند تقديم طلب نصي، تعمل عملية ضبط الطلب المرن عادةً على إلحاق تضمينات رموز مميزة إضافية بالطلب، وتستخدم الانتشار الخلفي لتحسين الإدخال.

يحتوي الطلب "الصعب" على رموز مميّزة فعلية بدلاً من تضمينات الرموز المميّزة.

خاصية متناثرة

#fundamentals

ميزة تكون قيمها في الغالب صفرًا أو فارغة. على سبيل المثال، تكون الميزة التي تحتوي على قيمة واحدة تساوي 1 ومليون قيمة تساوي 0 متفرقة. في المقابل، تحتوي الميزة الكثيفة على قيم ليست صفرًا أو فارغة في الغالب.

في التعلّم الآلي، يكون عدد كبير من الميزات ميزات متفرقة. السمات الفئوية هي عادةً سمات متفرقة. على سبيل المثال، من بين 300 نوع ممكن من الأشجار في غابة، قد يحدّد مثال واحد شجرة قيقب فقط. أو من بين ملايين الفيديوهات المحتملة في مكتبة فيديوهات، قد يحدّد مثال واحد فقط "كازابلانكا".

في النموذج، يتم عادةً تمثيل الميزات المتفرقة باستخدام الترميز الأحادي. إذا كان التشفير الواحد الفعّال كبيرًا، يمكنك وضع طبقة تضمين فوق التشفير الواحد الفعّال لتحقيق كفاءة أكبر.

التمثيل المتناثر

#fundamentals

تخزين مواضع العناصر غير الصفرية فقط في ميزة متفرقة

على سبيل المثال، لنفترض أنّ ميزة فئوية باسم species تحدّد 36 نوعًا من الأشجار في غابة معيّنة. افترض أيضًا أنّ كل مثال يحدّد نوعًا واحدًا فقط.

يمكنك استخدام متجه الترميز الأحادي لتمثيل أنواع الأشجار في كل مثال. سيتضمّن المتجه ذو الترميز النشط الواحد 1 واحدًا (لتمثيل نوع الشجرة المحدّد في هذا المثال) و35 0 (لتمثيل أنواع الأشجار الـ 35 غير الموجودة في هذا المثال). لذا، قد يبدو التمثيل بترميز one-hot للرقم maple على النحو التالي:

متّجه تتضمّن المواضع من 0 إلى 23 فيه القيمة 0، ويتضمّن الموضع 24 القيمة 1، وتتضمّن المواضع من 25 إلى 35 القيمة 0.

بدلاً من ذلك، يمكن أن يحدّد التمثيل المتفرّق موضع النوع المعيّن. إذا كان maple في الموضع 24، سيكون التمثيل المتناثر لـ maple كما يلي:

لاحظ أنّ التمثيل المتفرّق أكثر إيجازًا من التمثيل بترميز "واحد ساخن".

انقر على الرمز للاطّلاع على مثال أكثر تعقيدًا.

لنفترض أنّ كل مثال في النموذج يجب أن يمثّل الكلمات، ولكن ليس ترتيب هذه الكلمات، في جملة باللغة الإنجليزية. تتألف اللغة الإنجليزية من حوالي 170,000 كلمة، لذا فهي ميزة فئوية تضم حوالي 170,000 عنصر. تستخدم معظم الجمل الإنجليزية جزءًا صغيرًا جدًا من هذه الكلمات البالغ عددها 170,000 كلمة، لذا من المؤكّد أنّ مجموعة الكلمات في مثال واحد ستكون بيانات متفرقة.

فكر في الجملة التالية:

My dog is a great dog

يمكنك استخدام صيغة مختلفة من المتّجه ذي الترميز الثنائي لتمثيل الكلمات في هذه الجملة. في هذا النوع، يمكن أن تحتوي خلايا متعددة في المتّجه على قيمة غير صفرية. علاوةً على ذلك، في هذا النوع، يمكن أن تحتوي الخلية على عدد صحيح غير الواحد. على الرغم من أنّ الكلمات "كلب" و"عظيم" و"هو" و "لي" تظهر مرة واحدة فقط في الجملة، تظهر الكلمة "كلب" مرتين. يؤدي استخدام هذا النوع من المتجهات ذات الترميز الأحادي الساخن لتمثيل الكلمات في هذه الجملة إلى إنشاء المتجه التالي الذي يتضمّن 170,000 عنصر:

سيكون التمثيل المتناثر للجملة نفسها على النحو التالي:

انقر على الرمز إذا كنت غير متأكّد من الإجابة.

يُربك مصطلح "التمثيل المتناثر" الكثير من الأشخاص لأنّ التمثيل المتناثر ليس متّجهًا متناثرًا. في المقابل، فإنّ التمثيل المتناثر هو في الواقع تمثيل كثيف لمتّجه متناثر. إنّ تمثيل الفهرس للمرادفات أكثر وضوحًا من "التمثيل المختصر".

لمزيد من المعلومات، راجِع استخدام البيانات الفئوية في دورة "التعلّم الآلي السريع".

متّجه متناثر

#fundamentals

متّجه تكون قيمه في الغالب أصفارًا راجِع أيضًا الخاصية المتناثرة ومقياس التناثر.

مقياس التناثر

#Metric

عدد العناصر التي تم ضبطها على صفر (أو قيمة فارغة) في متّجه أو مصفوفة مقسومًا على إجمالي عدد الإدخالات في هذا المتّجه أو المصفوفة على سبيل المثال، لنفترض أنّ لديك مصفوفة تتضمّن 100 عنصر، منها 98 خلية تحتوي على القيمة صفر. يتم احتساب مقياس التباين على النحو التالي:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

تشير ندرة الخصائص إلى ندرة خطوط متجهة للخصائص، وتشير ندرة النماذج إلى ندرة أوزان النماذج.

الاختزال المكاني

اطّلِع على التجميع.

الترميز المواصفاتي

#generativeAI

عملية كتابة ملف وصيانته بلغة بشرية (مثل الإنجليزية) يصف البرنامج. يمكنك بعد ذلك أن تطلب من نموذج ذكاء اصطناعي توليدي أو مهندس برمجيات آخر إنشاء البرنامج الذي يتوافق مع هذا الوصف.

يتطلّب الرمز البرمجي الذي يتم إنشاؤه تلقائيًا عادةً تكرارًا. في الترميز المحدّد، يمكنك تكرار ملف الوصف. في المقابل، في الترميز الحواري، يمكنك تكرار العملية داخل مربّع الطلب. في الواقع، يتضمّن إنشاء الرموز البرمجية تلقائيًا أحيانًا مزيجًا من كل من الترميز التحديدي والترميز الحواري.

تقسيم

#df

في شجرة القرار، هو اسم آخر للشرط.

مقسِّم

#df

أثناء تدريب شجرة القرارات، يتم استخدام الروتين (والخوارزمية) المسؤول عن العثور على أفضل شرط عند كل عقدة.

SPMD

اختصار برنامج واحد / بيانات متعددة

SQuAD

#Metric

اختصار مجموعة بيانات ستانفورد للأسئلة والأجوبة، تم تقديمه في الورقة البحثية SQuAD: أكثر من 100,000 سؤال حول فهم الآلة للنصوص. تتضمّن مجموعة البيانات هذه أسئلة طرحها مستخدمون حول مقالات ويكيبيديا. تتضمّن بعض الأسئلة في مجموعة بيانات SQuAD إجابات، بينما لا تتضمّن أسئلة أخرى إجابات عن قصد. لذلك، يمكنك استخدام مجموعة بيانات SQuAD لتقييم قدرة نموذج لغوي كبير على تنفيذ ما يلي:

أجِب عن الأسئلة التي يمكن الإجابة عنها.
تحديد الأسئلة التي لا يمكن الإجابة عنها

المطابقة التامة مع F₁ هما المقياسان الأكثر شيوعًا لتقييم النماذج اللغوية الكبيرة (LLM) مقارنةً بمجموعة بيانات SQuAD.

تربيع الخسارة المفصلية

#Metric

مربّع الخسارة المفصلية تفرض الخسارة المفصلية المربّعة عقوبة على القيم الشاذة بشكل أكبر من الخسارة المفصلية العادية.

الخسارة التربيعية

#fundamentals

#Metric

مرادف الخسارة التربيعية₂

التدريب على مراحل

أسلوب لتدريب نموذج في سلسلة من المراحل المنفصلة. يمكن أن يكون الهدف إما تسريع عملية التدريب أو تحقيق جودة أفضل للنموذج.

في ما يلي صورة توضيحية لأسلوب التجميع التدريجي:

تحتوي المرحلة 1 على 3 طبقات مخفية، وتحتوي المرحلة 2 على 6 طبقات مخفية، وتحتوي المرحلة 3 على 12 طبقة مخفية.
تبدأ المرحلة 2 التدريب باستخدام الأوزان التي تم تعلّمها في 3 طبقات مخفية من المرحلة 1. تبدأ المرحلة 3 التدريب باستخدام الأوزان التي تم تعلّمها في 6 طبقات مخفية من المرحلة 2.

ثلاث مراحل، تحمل الأسماء المرحلة 1 والمرحلة 2 والمرحلة 3
تحتوي كل مرحلة على عدد مختلف من الطبقات: تحتوي المرحلة 1 على 3 طبقات، وتحتوي المرحلة 2 على 6 طبقات، وتحتوي المرحلة 3 على 12 طبقة.
تصبح الطبقات الثلاث من المرحلة 1 هي الطبقات الثلاث الأولى من المرحلة 2.
وبالمثل، تصبح الطبقات الست من المرحلة 2 هي الطبقات الست الأولى من المرحلة 3.

اطّلِع أيضًا على تجميع الطلبات.

الولاية

#agent

في التعلّم المعزّز، تشير الحالة إلى قيم المَعلمات التي تصف الإعداد الحالي للبيئة، والتي يستخدمها العميل لاختيار إجراء.

دالة قيمة الحالة والإجراء

مرادف دالة Q

وكيل آلة الحالة

#agent

وكيل تكون مهام سير عمله مقيّدة بقواعد صارمة وعمومًا، ترتكب برامج الحالة المحدودة أخطاء أقل من البرامج المستقلة، لكنّها تفتقر إلى الحرية في التكيّف مع المواقف الخارجة عن نطاق قيودها.

ثابت

#fundamentals

شيء يتم تنفيذه مرة واحدة بدلاً من تنفيذه بشكل مستمر المصطلحان ثابت وبلا إنترنت مترادفان. في ما يلي الاستخدامات الشائعة للبيانات الثابتة وغير المتصلة بالإنترنت في تعلّم الآلة:

النموذج الثابت (أو النموذج بلا إنترنت) هو نموذج يتم تدريبه مرة واحدة ثم استخدامه لفترة من الوقت.
التدريب الثابت (أو التدريب بلا اتصال بالإنترنت) هو عملية تدريب نموذج ثابت.
الاستنتاج الثابت (أو الاستنتاج المؤخَّر) هو عملية ينشئ فيها النموذج دفعة من التوقّعات في كل مرة.

تتبايَن مع الصور الديناميكية.

الاستنتاج الثابت

#fundamentals

مرادف الاستنتاج المؤخَّر

الثبات

#fundamentals

سمة لا تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون هذه السمة هي الوقت. على سبيل المثال، تكون إحدى السمات ثابتة إذا كانت قيمها متشابهة تقريبًا في عامَي 2021 و2023.

في العالم الحقيقي، لا تتسم سوى عدد قليل جدًا من السمات بالثبات. حتى الميزات المرتبطة بالثبات (مثل مستوى سطح البحر) تتغير بمرور الوقت.

يختلف ذلك عن عدم الثبات.

بخطوة

عملية تمرير أمامي وعملية تمرير خلفي لمجموعة واحدة

يمكنك الاطّلاع على الانتشار العكسي لمزيد من المعلومات حول المرور الأمامي والمرور الخلفي.

حجم الخطوة

مرادف لمعدّل التعلّم.

النزول المتدرّج العشوائي (SGD)

#fundamentals

خوارزمية نزول تدرّجي يكون فيها حجم الدفعة واحدًا. بعبارة أخرى، يتم تدريب SGD على مثال واحد يتم اختياره بشكل موحّد وعشوائي من مجموعة تدريب.

يمكنك الاطّلاع على الانحدار الخطي: المعلمات الفائقة في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

قفزة

في عملية الالتفاف أو التجميع، تكون دلتا في كل بُعد من السلسلة التالية من شرائح الإدخال. على سبيل المثال، يوضّح الرسم المتحرّك التالي خطوة (1,1) أثناء عملية التفاف. لذلك، تبدأ شريحة الإدخال التالية بموضع واحد على يمين شريحة الإدخال السابقة. عندما تصل العملية إلى الحافة اليمنى، تكون الشريحة التالية في أقصى اليسار ولكن في موضع واحد للأسفل.

يوضّح المثال السابق خطوة ثنائية الأبعاد. إذا كانت مصفوفة الإدخال ثلاثية الأبعاد، سيكون التقدّم أيضًا ثلاثي الأبعاد.

تقليص المخاطر البنيوية (SRM)

خوارزمية توازن بين هدفين:

الحاجة إلى إنشاء النموذج الأكثر قدرة على التوقّع (على سبيل المثال، أقل خسارة)
الحاجة إلى إبقاء النموذج بسيطًا قدر الإمكان (على سبيل المثال، التنظيم القوي).

على سبيل المثال، الدالة التي تقلّل الخسارة+التسوية في مجموعة التدريب هي خوارزمية لتقليل المخاطر البنيوية.

يختلف ذلك عن تقليص المخاطر التجريبية.

وكيل فرعي

#agent

نموذج متخصص ومحدود النطاق يتم استدعاؤه من خلال وكيل مدير للتعامل مع مجموعة فرعية محددة من مشكلة أكبر. عادةً ما يكون لدى الوكلاء الفرعيين مساحة إجراء أضيق من الوكلاء.

جمع عيّنات جزئية

اطّلِع على التجميع.

الرمز المميز للكلمة الفرعية

في نماذج اللغة، الرمز المميّز هو سلسلة فرعية من كلمة، وقد يكون الكلمة بأكملها.

على سبيل المثال، قد يتم تقسيم كلمة مثل "itemize" إلى جزأين هما "item" (كلمة جذرية) و "ize" (لاحقة)، ويتم تمثيل كل جزء برمز مميز خاص به. يتيح تقسيم الكلمات غير الشائعة إلى أجزاء، تُعرف باسم الكلمات الفرعية، لنماذج اللغة التعامل مع الأجزاء المكوّنة الأكثر شيوعًا للكلمة، مثل البادئات واللاحقات.

في المقابل، قد لا يتم تقسيم الكلمات الشائعة، مثل "ذاهب"، وقد يتم تمثيلها برمز مميز واحد.

ملخّص

#TensorFlow

في TensorFlow، هي قيمة أو مجموعة من القيم يتم احتسابها في خطوة معيّنة، ويتم استخدامها عادةً لتتبُّع مقاييس النموذج أثناء التدريب.

SuperGLUE

#Metric

مجموعة من مجموعات البيانات لتقييم قدرة النموذج اللغوي الكبير بشكل عام على فهم النصوص وإنشائها تتألف المجموعة الموحدة من مجموعات البيانات التالية:

أسئلة منطقية (BoolQ)
CommitmentBank (CB)
اختيار البدائل المعقولة (COPA)
فهم القراءة المتعددة الجمل (MultiRC)
مجموعة بيانات فهم المقروء باستخدام الاستدلال المنطقي السليم (ReCoRD)
التعرّف على الاستلزام النصي (RTE)
الكلمات في السياق (WiC)
تحدي مخطط وينوغراد (WSC)

لمزيد من التفاصيل، يُرجى الاطّلاع على SuperGLUE: معيار تقييم أكثر ثباتًا لأنظمة فهم اللغة للأغراض العامة.

تعلُّم الآلة الموجَّه

#fundamentals

تدريب نموذج من الميزات والتصنيفات المقابلة يمكن تشبيه تعلُّم الآلة الموجَّه بتعلُّم موضوع معيّن من خلال دراسة مجموعة من الأسئلة والإجابات المقابلة لها. بعد إتقان الربط بين الأسئلة والأجوبة، يمكن للطالب تقديم إجابات عن أسئلة جديدة (لم يسبق له رؤيتها) حول الموضوع نفسه.

قارِن ذلك بتعلُّم الآلة غير المراقَب.

يمكنك الاطّلاع على التعلُّم الموجَّه في دورة "مقدمة في تعلُّم الآلة" للحصول على مزيد من المعلومات.

خاصية مصطنعة

#fundamentals

ميزة غير متوفّرة بين الميزات المُدخَلة، ولكن تم تجميعها من ميزة واحدة أو أكثر من هذه الميزات تشمل طرق إنشاء الميزات الاصطناعية ما يلي:

تحويل القيم خاصية مستمرة إلى حِزم نطاق
إنشاء مضروب مجموعات الخصائص
ضرب (أو قسمة) قيمة ميزة واحدة على قيم ميزات أخرى أو على نفسها على سبيل المثال، إذا كانت a وb من سمات الإدخال، ستكون الأمثلة التالية من السمات المصطنعة:
- ab
- a²
تطبيق دالة متسامية على قيمة سمة على سبيل المثال، إذا كانت c هي ميزة إدخال، تكون الأمثلة التالية هي ميزات اصطناعية:
- sin(c)
- ln(c)

لا تُعتبر الميزات التي يتم إنشاؤها من خلال التسوية أو التحجيم وحدها ميزات اصطناعية.

T

T5

نموذج التعلّم القائم على نقل المهام من نص إلى نص، تم طرحه من قِبل Google AI في عام 2020 ‫T5 هو نموذج ترميز-فك ترميز يستند إلى بنية Transformer، وتم تدريبه على مجموعة بيانات كبيرة جدًا. وهو فعّال في مجموعة متنوعة من مهام معالجة اللغة الطبيعية، مثل إنشاء النصوص وترجمة اللغات والإجابة عن الأسئلة بطريقة حوارية.

يستمدّ نموذج T5 اسمه من أحرف T الخمسة في عبارة "Text-to-Text Transfer Transformer".

T5X

إطار عمل مفتوح المصدر لتعلُّم الآلة مصمَّم لإنشاء وتدريب نماذج معالجة اللغات الطبيعية (NLP) على نطاق واسع. يتم تنفيذ T5 على قاعدة بيانات T5X (المستندة إلى JAX وFlax).

التعلم المعزز المستند إلى جدول Q

في التعلم المعزّز، يتم تنفيذ التعلم المستند إلى Q باستخدام جدول لتخزين دوال Q لكل مجموعة من الحالات والإجراءات.

الاستهداف

مرادف للتصنيف

الشبكة المستهدَفة

في التعلّم العميق باستخدام Q، تكون الشبكة العصبية تقريبًا ثابتًا للشبكة العصبية الرئيسية، حيث تنفّذ الشبكة العصبية الرئيسية إما دالة Q أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q التي تتوقّعها الشبكة المستهدَفة. وبالتالي، يمكنك منع حلقة الملاحظات التي تحدث عندما تدرب الشبكة الرئيسية على قيم Q التي تتوقعها بنفسها. من خلال تجنُّب هذه الملاحظات، يزداد ثبات التدريب.

مهمة

مشكلة يمكن حلّها باستخدام تقنيات تعلُّم الآلة، مثل:

التصنيف
تراجع
التجميع
رصد القيم الشاذة

تقسيم المهام

تقسيم هدف كبير إلى خطوات صغيرة قابلة للتنفيذ تتعامل البرامج مع مشاكل معيّنة من خلال تقسيم المهام.

درجة الحرارة

#generativeAI

المَعلمة الفائقة التي تتحكّم في درجة العشوائية في ردود النموذج. تؤدي درجات الحرارة المرتفعة إلى ناتج أكثر عشوائية، بينما تؤدي درجات الحرارة المنخفضة إلى ناتج أقل عشوائية.

يعتمد اختيار درجة العشوائية الأفضل على التطبيق المحدّد و/أو قيم السلسلة.

بيانات حسب فترة زمنية محدّدة

البيانات المسجّلة في نقاط زمنية مختلفة على سبيل المثال، مبيعات المعاطف الشتوية المسجّلة لكل يوم من أيام السنة هي بيانات حسب فترة زمنية محدّدة.

Tensor

#TensorFlow

بنية البيانات الأساسية في برامج TensorFlow الموترات هي هياكل بيانات متعددة الأبعاد (يمكن أن يكون عدد الأبعاد كبيرًا جدًا)، وهي غالبًا ما تكون كميات قياسية أو متجهات أو مصفوفات. يمكن أن تحتوي عناصر Tensor على قيم عددية صحيحة أو قيم نقطة عائمة أو قيم سلاسل.

TensorBoard

#TensorFlow

لوحة البيانات التي تعرض الملخّصات المحفوظة أثناء تنفيذ برنامج واحد أو أكثر من برامج TensorFlow

TensorFlow

#TensorFlow

منصة تعلُّم آلي موزّعة وواسعة النطاق يشير المصطلح أيضًا إلى طبقة واجهة برمجة التطبيقات الأساسية في حزمة TensorFlow، والتي تتيح إجراء عمليات حسابية عامة على رسومات بيانية لتدفّق البيانات.

على الرغم من أنّ TensorFlow تُستخدَم بشكل أساسي في تعلُّم الآلة، يمكنك أيضًا استخدامها في مهام أخرى لا تتعلّق بتعلُّم الآلة وتتطلّب إجراء عمليات حسابية رقمية باستخدام رسومات بيانية لتدفّق البيانات.

TensorFlow Playground

#TensorFlow

برنامج يعرض بشكل مرئي كيف تؤثر المَعلمات الفائقة المختلفة في تدريب النماذج (الشبكات العصبية بشكل أساسي). انتقِل إلى http://playground.tensorflow.org لتجربة TensorFlow Playground.

منصة TensorFlow للعرض

#TensorFlow

منصة لنشر النماذج المدرَّبة في مرحلة الإنتاج

وحدة معالجة الموتّرات (TPU)

#TensorFlow

#GoogleCloud

شريحة مُدمَجة خاصة بالتطبيقات (ASIC) تعمل على تحسين أداء مهام معالجة تعلُّم الآلة. يتم نشر هذه الدوائر المتكاملة الخاصة بالتطبيقات على شكل شرائح TPU متعددة على جهاز TPU.

ترتيب المتّجه

#TensorFlow

اطّلِع على رتبة (متّجه متعدّد الأبعاد).

شكل المتّجه

#TensorFlow

عدد العناصر التي يحتوي عليها Tensor في مختلف السمات على سبيل المثال، يحتوي [5, 10] Tensor على شكل 5 في أحد الأبعاد و10 في بعد آخر.

حجم المتّجه

#TensorFlow

تمثّل هذه السمة إجمالي عدد القيم العددية التي يحتوي عليها Tensor. على سبيل المثال، يبلغ حجم [5, 10] Tensor‏ 50.

TensorStore

مكتبة لقراءة وكتابة المصفوفات الكبيرة المتعددة الأبعاد بكفاءة

شرط الإنهاء

#agent

في الذكاء الاصطناعي الوكيل، تشير المعايير المحدّدة مسبقًا إلى الوكيل للتوقّف عن التكرار. على سبيل المثال، إليك بعض شروط الإنهاء المحتملة:

أكمل الوكيل الهدف بنجاح.
لا يمكن للوكيل استخدام أي موارد أخرى.
رصد human-in-the-loop مشكلة.

في التعلم المعزّز، الشروط التي تحدّد متى تنتهي الحلقة، مثل عندما يصل الوكيل إلى حالة معيّنة أو يتجاوز عددًا محددًا من انتقالات الحالة على سبيل المثال، في لعبة إكس أو، تنتهي الحلقة إما عندما يضع أحد اللاعبين علامة في ثلاث خانات متتالية أو عندما يتم وضع علامة في جميع الخانات.

اختبار

#df

في شجرة القرار، هو اسم آخر للشرط.

الخسارة في مجموعة الاختبار

#fundamentals

#Metric

مقياس يمثّل الخسارة التي يتكبّدها النموذج مقارنةً بمجموعة الاختبار عند إنشاء نموذج، تحاول عادةً تقليل خسارة الاختبار. ويرجع ذلك إلى أنّ انخفاض مقياس القصور في مجموعة الاختبار هو إشارة جودة أقوى من انخفاض مقياس القصور في مجموعة التدريب أو انخفاض مقياس القصور في مجموعة التحقّق.

يشير الفرق الكبير بين خسارة الاختبار وخسارة التدريب أو خسارة التحقّق أحيانًا إلى ضرورة زيادة معدّل التسوية.

مجموعة الاختبار

مجموعة فرعية من مجموعة البيانات محجوزة لاختبار نموذج تم تدريبه.

عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:

مجموعة تدريب
مجموعة التحقّق
مجموعة اختبار

يجب أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة الاختبار.

ترتبط مجموعة التدريب ومجموعة التحقّق ارتباطًا وثيقًا بتدريب النموذج. بما أنّ مجموعة الاختبار مرتبطة بشكل غير مباشر بالتدريب، فإنّ فقدان الاختبار هو مقياس أقل تحيزًا وأعلى جودةً من فقدان التدريب أو فقدان التحقّق من الصحة.

اطّلِع على مجموعات البيانات: تقسيم مجموعة البيانات الأصلية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

نطاق النص

نطاق فهرس المصفوفة المرتبط بقسم فرعي معيّن من سلسلة نصية على سبيل المثال، تحتل الكلمة good في سلسلة Python النصية s="Be good now" نطاق النص من 3 إلى 6.

tf.Example

#TensorFlow

بروتوكول Protocol Buffers معياري لوصف البيانات المدخلة لتدريب نماذج تعلُّم الآلة أو الاستدلال.

tf.keras

#TensorFlow

هي تنفيذ Keras مدمج في TensorFlow.

الحدّ (لأشجار القرارات)

#df

في الشرط المحاذي للمحور، تكون القيمة هي القيمة التي تتم مقارنة العنصر بها. على سبيل المثال، 75 هي قيمة الحد في الشرط التالي:

grade >= 75

يمكنك الاطّلاع على أداة التقسيم الدقيق للتصنيف الثنائي باستخدام الميزات الرقمية في دورة "أشجار القرار" التدريبية للحصول على مزيد من المعلومات.

تحليل المتسلسلات الزمنية

#clustering

أحد المجالات الفرعية لتعلُّم الآلة والإحصاءات، وهو يحلّل بيانات حسب فترة زمنية محدّدة. تتطلّب العديد من أنواع مشاكل تعلُّم الآلة تحليل المتسلسلات الزمنية، بما في ذلك التصنيف والتجميع والتوقّع واكتشاف القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل المتسلسلات الزمنية لتوقّع المبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات السابقة.

الخطوة الزمنية

خلية "موسّعة" واحدة ضمن شبكة عصبية متكرّرة على سبيل المثال، يعرض الشكل التالي ثلاث خطوات زمنية (تمت تسميتها بالرموز الفرعية t-1 وt وt+1):

ثلاث خطوات زمنية في شبكة عصبونية متكرّرة ويصبح الناتج من الخطوة الزمنية الأولى هو المدخل إلى الخطوة الزمنية الثانية. ويصبح الناتج
من الخطوة الزمنية الثانية هو المدخل إلى الخطوة الزمنية الثالثة.

الرمز المميز

في النموذج اللغوي، يشير إلى الوحدة الأساسية التي يتدرب عليها النموذج ويضع التوقعات استنادًا إليها. يكون الرمز المميز عادةً أحد ما يلي:

كلمة، على سبيل المثال، تتألف العبارة "الكلاب تحب القطط" من ثلاث وحدات رمزية للكلمات: "الكلاب" و"تحب" و "القطط".
حرف، مثلاً، تتألف العبارة "bike fish" من تسعة رموز مميزة. (يُرجى العِلم أنّ المساحة الفارغة تُحتسب كإحدى الرموز المميزة).
الكلمات الفرعية: يمكن أن تكون كلمة واحدة رمزًا مميزًا واحدًا أو رموزًا مميزة متعددة. تتألف الكلمة الفرعية من كلمة أصلية أو بادئة أو لاحقة. على سبيل المثال، قد ينظر نموذج اللغة الذي يستخدم الكلمات الفرعية كرموز إلى الكلمة "كلاب" على أنّها رمزان (الكلمة الجذر "كلب" ولاحقة الجمع "اب"). قد يرى نموذج اللغة نفسه الكلمة المفردة "أطول" على أنّها كلمتان فرعيتان (الكلمة الجذر "طويل" واللاحقة "أ").

في النطاقات خارج نماذج اللغة، يمكن أن تمثّل الرموز المميزة أنواعًا أخرى من الوحدات الذرية. على سبيل المثال، في مجال رؤية الكمبيوتر، قد يكون الرمز المميز مجموعة فرعية من صورة.

يمكنك الاطّلاع على النماذج اللغوية الكبيرة في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

أداة تقسيم النص إلى رموز مميّزة

نظام أو خوارزمية تحوّل تسلسلاً من بيانات الإدخال إلى رموز مميزة.

معظم النماذج الأساسية الحديثة هي متعددة الوسائط. يجب أن يحوّل أداة الترميز لنظام متعدد الوسائط كل نوع من أنواع الإدخال إلى التنسيق المناسب. على سبيل المثال، إذا كانت البيانات المدخلة تتألف من نص ورسومات، قد يحوّل برنامج التقسيم إلى رموز مميّزة النص المدخل إلى كلمات فرعية ويحوّل الصور المدخلة إلى رقع صغيرة. بعد ذلك، يجب أن يحوّل أداة الترميز جميع الرموز المميزة إلى مساحة تضمين موحّدة واحدة، ما يتيح للنموذج "فهم" مجموعة من المدخلات المتعددة الوسائط.

دقة أعلى k

#Metric

النسبة المئوية لعدد المرات التي يظهر فيها "تصنيف مستهدَف" ضمن أول k مواضع في القوائم التي تم إنشاؤها يمكن أن تكون القوائم اقتراحات مخصّصة أو قائمة بعناصر مرتّبة حسب softmax.

يُعرف مقياس "الدقة في أعلى k نتائج" أيضًا باسم الدقة عند k.

انقر على الرمز للاستماع إلى مثال.

لنفترض أنّ هناك نظامًا لتعلُّم الآلة يستخدم دالة softmax لتحديد احتمالات أنواع الأشجار استنادًا إلى صورة لأوراق الشجر. يعرض الجدول التالي قوائم النتائج التي تم إنشاؤها من خمس صور لأشجار الإدخال. يحتوي كل صف على تصنيف مستهدَف وأكثر خمسة أشجار احتمالاً. على سبيل المثال، عندما كانت التسمية المستهدَفة هي شجرة القيقب، حدّد نموذج تعلُّم الآلة شجرة الدردار على أنّها الشجرة الأكثر احتمالاً، وشجرة البلوط على أنّها الشجرة الثانية الأكثر احتمالاً، وهكذا.

تصنيف الهدف	1	2	3	4	5
قيقب	elm	البلوط	maple	زان	حور
قرانيا	البلوط	dogwood	حور	hickory	قيقب
البلوط	oak	الزيزفون	جراد	ألدر	linden
linden	قيقب	paw-paw	البلوط	الزيزفون	حور
البلوط	جراد	linden	oak	قيقب	paw-paw

يظهر التصنيف المستهدف في الموضع الأول مرة واحدة فقط، لذا تكون دقة أعلى نتيجة كما يلي:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

يظهر التصنيف المستهدف في أحد المواضع الثلاثة الأولى أربع مرات، وبالتالي تكون دقة أعلى 3 تصنيفات كما يلي:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

برج

أحد مكوّنات الشبكة العصبية العميقة، وهو عبارة عن شبكة عصبية عميقة في حد ذاته. في بعض الحالات، يقرأ كل برج من مصدر بيانات مستقل، وتبقى هذه الأبراج مستقلة إلى أن يتم دمج ناتجها في طبقة نهائية. في حالات أخرى، (على سبيل المثال، في برج المشفّر وبرج فك التشفير الخاصَين بالعديد من محوّلات الترميز)، تتضمّن الأبراج روابط متبادلة.

لغة غير لائقة

#Metric

درجة إساءة المحتوى أو تهديده أو إهانته يمكن للعديد من نماذج تعلُّم الآلة تحديد مستوى السمية وقياسه وتصنيفه. تحدّد معظم هذه النماذج مستوى السمية وفقًا لمعايير متعددة، مثل مستوى اللغة المسيئة ومستوى اللغة التي تتضمّن تهديدات.

TPU

#TensorFlow

#GoogleCloud

اختصار وحدة معالجة الموتّرات

شريحة TPU

#TensorFlow

#GoogleCloud

هي أداة تسريع قابلة للبرمجة خاصة بالجبر الخطي، وتتضمّن ذاكرة عالية النطاق الترددي على الشريحة، وهي محسّنة لتناسب مهام معالجة تعلُّم الآلة. يتم نشر شرائح TPU متعددة على جهاز TPU.

جهاز TPU

#TensorFlow

#GoogleCloud

لوحة دوائر مطبوعة (PCB) تحتوي على عدة رقائق TPU، وواجهات شبكة ذات نطاق ترددي عالٍ، وأجهزة تبريد للنظام.

عقدة وحدة معالجة الموتّرات

#TensorFlow

#GoogleCloud

مورد لوحدة معالجة الموتّرات على Google Cloud بنوع وحدة معالجة موتّرات محدّد. تتصل عقدة TPU بشبكة VPC من شبكة VPC نظيرة. عُقد TPU هي موارد محدّدة في Cloud TPU API.

حزمة TPU

#TensorFlow

#GoogleCloud

هي إعدادات محدّدة لأجهزة TPU في أحد مراكز بيانات Google. تكون جميع الأجهزة في وحدة TPU Pod متصلة ببعضها البعض عبر شبكة مخصّصة عالية السرعة. وحدة TPU Pod هي أكبر إعداد لأجهزة TPU متاح لإصدار معيّن من TPU.

مورد TPU

#TensorFlow

#GoogleCloud

كيان لوحدة معالجة الموتّرات (TPU) على Google Cloud يمكنك إنشاؤه أو إدارته أو استخدامه على سبيل المثال، عُقد وحدات معالجة الموتّرات وأنواع وحدات معالجة الموتّرات هي موارد لوحدات معالجة الموتّرات.

شريحة TPU

#TensorFlow

#GoogleCloud

شريحة وحدة معالجة الموتّرات (TPU) هي جزء كسري من أجهزة TPU في حزمة TPU. جميع الأجهزة في شريحة وحدة معالجة الموتّرات متصلة ببعضها البعض عبر شبكة مخصّصة عالية السرعة.

نوع وحدة معالجة الموتّرات

#TensorFlow

#GoogleCloud

إعداد لجهاز واحد أو أكثر من أجهزة TPU مع إصدار محدّد من أجهزة TPU يمكنك اختيار نوع وحدة معالجة الموتّرات عند إنشاء عقدة وحدة معالجة الموتّرات على Google Cloud. على سبيل المثال، v2-8نوع وحدة معالجة الموتّرات هو جهاز TPU v2 واحد مزوّد بـ 8 نوى. يحتوي v3-2048 نوع وحدة معالجة الموتّرات على 256 جهاز TPU v3 متصل بشبكة و2048 نواة إجمالاً. أنواع وحدات معالجة الموتّرات هي موارد محدّدة في Cloud TPU API.

عامل TPU

#TensorFlow

#GoogleCloud

عملية يتم تنفيذها على جهاز مضيف وتنفّذ برامج تعلُّم الآلة على أجهزة TPU

التدريب

#fundamentals

تشير إلى عملية تحديد المَعلمات المثالية (الأوزان والانحيازات) التي يتألف منها النموذج. أثناء التدريب، يقرأ النظام أمثلة ويعدّل المَعلمات تدريجيًا. يستخدم التدريب كل مثال من بضع مرات إلى مليارات المرات.

يمكنك الاطّلاع على التعلُّم الموجَّه في دورة "مقدمة في تعلُّم الآلة" للحصول على مزيد من المعلومات.

فقدان التدريب

#fundamentals

#Metric

المقياس الذي يمثّل الخسارة التي يتكبّدها النموذج خلال عملية تدريب معيّنة. على سبيل المثال، لنفترض أنّ دالة الخسارة هي الخطأ التربيعي المتوسّط. على سبيل المثال، قد يكون فقدان التدريب (متوسط الخطأ التربيعي) في التكرار العاشر هو 2.2، بينما يكون فقدان التدريب في التكرار المئة هو 1.9.

يعرض مخطّط الخسارة الخسارة أثناء التدريب مقابل عدد التكرارات. تقدّم منحنى الخسارة التلميحات التالية حول التدريب:

يشير الميل الهبوطي إلى أنّ النموذج يتحسّن.
يشير الميل المتزايد إلى أنّ النموذج يزداد سوءًا.
يشير الميل المسطّح إلى أنّ النموذج قد بلغ حالة التقارب.

على سبيل المثال، يوضّح منحنى الخسارة المثالي إلى حد ما ما يلي:

ميل حادّ نحو الأسفل خلال التكرارات الأولية، ما يشير إلى تحسُّن سريع في النموذج
انحدار يتسطّح تدريجيًا (ولكنّه يظلّ متّجهًا للأسفل) إلى أن يقترب من نهاية التدريب، ما يشير إلى تحسّن مستمرّ في النموذج بوتيرة أبطأ بعض الشيء من الوتيرة التي كانت سائدة خلال التكرارات الأولية
ميلان مستوٍ نحو نهاية التدريب، ما يشير إلى التقارب

رسم بياني للخسارة في التدريب مقابل التكرارات يبدأ منحنى الخسارة بانحدار حاد إلى الأسفل. ينخفض الميل تدريجيًا إلى أن يصبح صفرًا.

على الرغم من أهمية فقدان التدريب، يمكنك أيضًا الاطّلاع على التعميم.

اختلاف بين بيانات التدريب وبيانات العرض

#fundamentals

الفرق بين أداء النموذج أثناء التدريب وأداء النموذج نفسه أثناء العرض

مجموعة التدريب

#fundamentals

مجموعة فرعية من مجموعة البيانات المستخدَمة لتدريب نموذج

عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى ثلاث مجموعات فرعية مميزة كما يلي:

مجموعة تدريب
مجموعة التحقّق
مجموعة اختبار

يُفضّل أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة فرعية واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، يجب ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقّق.

المسار

في التعلم المعزّز، يكون التسلسل عبارة عن مجموعات تمثّل تسلسل عمليات انتقال الحالة للعنصر، حيث تتوافق كل مجموعة مع الحالة والإجراء والمكافأة والحالة التالية لعملية انتقال حالة معيّنة.

التعلّم القائم على نقل المهام

نقل المعلومات من مهمة تعلُّم آلي إلى أخرى على سبيل المثال، في عملية التعلّم المتعدد المهام، يحلّ نموذج واحد مهام متعددة، مثل نموذج عميق الذي يتضمّن عُقد إخراج مختلفة للمهام المختلفة. قد تتضمّن عملية التعلّم القائم على نقل المهام نقل المعرفة من حلّ مهمة أبسط إلى مهمة أكثر تعقيدًا، أو نقل المعرفة من مهمة تتوفّر فيها بيانات أكثر إلى مهمة تتوفّر فيها بيانات أقل.

تحلّ معظم أنظمة تعلُّم الآلة مهمة واحدة. التعلّم القائم على نقل المهام هو خطوة أولى نحو الذكاء الاصطناعي، إذ يمكن لبرنامج واحد حل مهام متعددة.

المحوّل

بنية شبكة عصبية تم تطويرها في Google وتعتمد على آليات الاهتمام الذاتي لتحويل تسلسل من عمليات التضمين المدخلة إلى تسلسل من عمليات التضمين الناتجة بدون الاعتماد على الالتفافات أو الشبكات العصبية المتكررة. يمكن اعتبار Transformer مجموعة من طبقات الانتباه الذاتي.

يمكن أن يتضمّن المحوّل أيًّا مما يلي:

برنامج ترميز
برنامج فك الترميز
كل من برنامج الترميز وفك الترميز

يحوّل برنامج الترميز تسلسلاً من عمليات التضمين إلى تسلسل جديد من عمليات التضمين بالطول نفسه. يتضمّن برنامج الترميز N طبقة متطابقة، يحتوي كل منها على طبقتَين فرعيتَين. يتم تطبيق هاتين الطبقتين الفرعيتين على كل موضع من مواضع تسلسل التضمين الأول، ما يؤدي إلى تحويل كل عنصر من عناصر التسلسل إلى تضمين جديد. تجمع الطبقة الفرعية الأولى من أداة الترميز المعلومات من تسلسل الإدخال بأكمله. تحوّل الطبقة الفرعية الثانية من برنامج الترميز المعلومات المجمّعة إلى تضمين إخراج.

يحوّل برنامج الترميز تسلسلاً من عمليات التضمين المدخلة إلى تسلسل من عمليات التضمين الناتجة، وقد يكون طولها مختلفًا. يتضمّن برنامج الترميز أيضًا N طبقات متطابقة مع ثلاث طبقات فرعية، اثنتان منها تشبهان الطبقات الفرعية لبرنامج الترميز. تأخذ الطبقة الفرعية الثالثة من أداة فك الترميز ناتج أداة الترميز وتطبّق آلية الانتباه الذاتي لجمع المعلومات منها.

تقدّم مشاركة المدوّنة Transformer: A Novel Neural Network Architecture for Language Understanding مقدمة جيدة عن Transformers.

يمكنك الاطّلاع على النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟ في "دورة مكثّفة عن تعلُّم الآلة" للحصول على مزيد من المعلومات.

الثبات الانتقالي

في مشكلة تصنيف الصور، تشير إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عند تغيير موضع العناصر داخل الصورة. على سبيل المثال، يمكن للخوارزمية التعرّف على كلب، سواء كان في وسط الإطار أو في الطرف الأيسر منه.

راجِع أيضًا الثبات الحجمي والثبات الدوراني.

توجيه شجرة الأفكار (ToT)

استراتيجية طلب متطورة تشجّع النموذج اللغوي الكبير على البحث عن الحلول الوسيطة الواعدة وتحسينها، والتخلّي عن الباقي. يستخدم أسلوب توجيه الطلبات عبر "شجرة الأفكار" خوارزمية مثل ما يلي:

قسِّم المشكلة المعقّدة إلى فروع مختلفة (استراتيجيات محتملة)، يتضمّن كل منها خطوات متعددة.
اطلب من النموذج اللغوي الكبير العمل على كل فرع بشكل مستقل.
اطلب من النموذج اللغوي الكبير تقييم جودة الحلّ لكل فرع بعد كل خطوة.
مواصلة تحسين الفروع الواعدة والتخلّي عن الباقي
إذا لم تنجح إحدى الخطوات الواعدة في النهاية، عليك التراجع وتجربة خطوات واعدة أخرى.

trigram

مخطط ثلاثي حيث N=3

الإجابة عن أسئلة المعلومات العامة

#Metric

مجموعات البيانات لتقييم قدرة نموذج اللغة الكبير على الإجابة عن أسئلة المعلومات العامة تحتوي كل مجموعة بيانات على أزواج من الأسئلة والأجوبة من تأليف محبّي المسابقات الترفيهية. تستند مجموعات البيانات المختلفة إلى مصادر مختلفة، بما في ذلك:

بحث الويب (TriviaQA)
Wikipedia (TriviaQA_wiki)

لمزيد من المعلومات، يُرجى الاطّلاع على TriviaQA: مجموعة بيانات كبيرة الحجم للتحدّي بإشراف عن بُعد حول فهم المقروء.

سالب صحيح (TN)

#fundamentals

#Metric

مثال يوضّح كيف يتنبأ النموذج بشكل صحيح بالفئة السلبية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة ليست غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية ليست غير مرغوب فيها بالفعل.

موجب صحيح (TP)

#fundamentals

#Metric

مثال يوضح كيف يتنبأ النموذج بشكل صحيح بالفئة الإيجابية. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة هي رسالة غير مرغوب فيها، وتكون هذه الرسالة الإلكترونية في الواقع رسالة غير مرغوب فيها.

معدّل الموجب الصحيح (TPR)

#fundamentals

#Metric

مرادف لكلمة استدعاء والمقصود:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

معدل الموجب الصحيح هو المحور الصادي في منحنى ROC.

TTL

اختصار مدة البقاء

Typologically Diverse Question Answering (TyDi QA)

#Metric

مجموعة بيانات كبيرة لتقييم مدى إتقان نموذج لغوي كبير للإجابة عن الأسئلة تحتوي مجموعة البيانات على أزواج من الأسئلة والأجوبة بلغات عديدة.

للحصول على التفاصيل، يُرجى الاطّلاع على TyDi QA: معيار لتقييم أداء أنظمة الإجابة عن الأسئلة المتعلقة بالبحث عن المعلومات في لغات متنوعة من الناحية التصنيفية.

U

UCR

الاختصار الخاص بمعدّل الادعاءات غير المستندة إلى أساس

Ultra

#generativeAI

نموذج Gemini الذي يتضمّن أكبر عدد من المَعلمات لمزيد من التفاصيل، يُرجى الاطّلاع على مقالة Gemini Ultra.

يمكنك الاطّلاع أيضًا على Pro وNano.

عدم الوعي (بإحدى السمات الحسّاسة)

#responsible

حالة تتوفّر فيها سمات حسّاسة، ولكنّها غير مضمّنة في بيانات التدريب. بما أنّ السمات الحساسة غالبًا ما تكون مرتبطة بسمات أخرى خاصة ببيانات المستخدم، فإنّ النموذج الذي تم تدريبه بدون معرفة سمة حساسة قد يظل له تأثير غير متناسب فيما يتعلق بهذه السمة، أو ينتهك قيود العدالة الأخرى.

فرط التعميم

#fundamentals

إنتاج نموذج بقدرة توقّع ضعيفة لأنّ النموذج لم يستوعب بشكل كامل مدى تعقيد بيانات التدريب يمكن أن تؤدي مشاكل عديدة إلى حدوث نقص في الملاءمة، بما في ذلك:

التدريب على مجموعة خاطئة من الميزات
التدريب لعدد قليل جدًا من الحقبات أو بمعدّل التعلّم منخفض جدًا
التدريب بمعدّل تسوية مرتفع جدًا
توفير عدد قليل جدًا من الطبقات المخفية في شبكة عصبونية عميقة

يمكنك الاطّلاع على الإفراط في التخصيص في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

جمع عيّنات جزئية

إزالة أمثلة من الفئة الأكثر تمثيلاً في مجموعة بيانات غير متوازنة الفئات من أجل إنشاء مجموعة تدريب أكثر توازنًا.

على سبيل المثال، لنفترض مجموعة بيانات تكون فيها نسبة الفئة الأكثر تمثيلاً إلى الفئة الأقل تمثيلاً هي 20:1. للتغلّب على عدم توازن الفئات هذا، يمكنك إنشاء مجموعة تدريبية تتألف من جميع أمثلة الفئة الأقل تمثيلاً وعُشر أمثلة الفئة الأكثر تمثيلاً فقط، ما يؤدي إلى إنشاء نسبة فئات في مجموعة التدريب تبلغ 2:1. وبفضل عملية تقليل عدد العيّنات، قد تؤدي مجموعة التدريب الأكثر توازنًا إلى إنشاء نموذج أفضل. بدلاً من ذلك، قد تحتوي مجموعة التدريب الأكثر توازناً هذه على أمثلة غير كافية لتدريب نموذج فعّال.

يختلف ذلك عن أخذ العيّنات الزائد.

أحادي الاتجاه

نظام يقيّم النص الذي يسبق قسمًا مستهدفًا من النص. في المقابل، يقيّم النظام الثنائي الاتجاه النص الذي يسبق النص المستهدف والنص الذي يليه. لمزيد من التفاصيل، يُرجى الاطّلاع على ثنائي الاتجاه.

نموذج لغوي أحادي الاتجاه

نموذج لغوي يستند في احتمالاته إلى الرموز المميزة التي تظهر قبل الرموز المميزة المستهدَفة، وليس بعدها. يختلف عن نموذج اللغة الثنائي الاتجاه.

مثال غير مصنّف

#fundamentals

مثال يتضمّن ميزات ولكن بدون تصنيف على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة غير مصنَّفة من نموذج لتقييم المنازل، ويتضمّن كل مثال ثلاث سمات ولكن بدون قيمة للمنزل:

عدد غرف النوم	عدد الحمّامات	عمر المنزل
3	2	15
2	1	72
4	2	34

في تعلُّم الآلة الموجَّه، يتم تدريب النماذج على أمثلة مصنَّفة، ويتم إجراء توقعات على أمثلة غير مصنَّفة.

في التعلّم شبه الموجَّه وغير الموجَّه، يتم استخدام أمثلة غير مصنَّفة أثناء التدريب.

قارِن المثال غير المصنّف بالمثال المصنّف.

تعلُّم الآلة غير المراقَب

#clustering

#fundamentals

تدريب نموذج للعثور على أنماط في مجموعة بيانات، وعادةً ما تكون مجموعة بيانات غير مصنَّفة

إنّ الاستخدام الأكثر شيوعًا لتعلُّم الآلة غير المراقَب هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن لخوارزمية تعلّم آلي غير مراقَب تجميع الأغاني استنادًا إلى خصائص مختلفة للموسيقى. ويمكن أن تصبح المجموعات الناتجة مدخلاً لخوارزميات أخرى لتعلُّم الآلة (على سبيل المثال، لخدمة اقتراحات موسيقية). يمكن أن يساعد التجميع العنقودي عندما تكون التصنيفات المفيدة نادرة أو غير متوفّرة. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن أن تساعد المجموعات البشر في فهم البيانات بشكل أفضل.

يختلف عن تعلُّم الآلة الموجَّه.

انقر على الرمز للاطّلاع على ملاحظات إضافية.

من الأمثلة الأخرى على تعلُّم الآلة غير المراقَب تحليل المكوّنات الأساسية (PCA). على سبيل المثال، قد يؤدي تطبيق تحليل المكوّنات الرئيسية على مجموعة بيانات تحتوي على محتويات ملايين من سلال التسوّق إلى الكشف عن أنّ سلال التسوّق التي تحتوي على الليمون تحتوي أيضًا في كثير من الأحيان على مضادات الحموضة.

يمكنك الاطّلاع على ما هو تعلُّم الآلة؟ في دورة "مقدمة إلى تعلُّم الآلة" التعليمية للحصول على مزيد من المعلومات.

معدّل المطالبات غير الصالحة (UCR)

#Metric

النسبة المئوية للمطالبات في ردّ غير مستندة إلى معلومات أساسية على سبيل المثال، إذا تضمّن ردّ النموذج اللغوي الكبير 10 ادّعاءات، وكان ادّعاء واحد فقط يستند إلى مصادر، تكون نسبة الادّعاءات المستندة إلى مصادر 90%.

يشير ارتفاع معدّل UCR إلى أنّ نموذج اللغة الكبير يهلوس بشكل متكرّر جدًا.

راجِع أيضًا دقة الاقتباس واكتمال الاقتباس.

نمذجة التحسين

أسلوب لوضع النماذج شائع الاستخدام في التسويق، وهو يضع نموذجًا "للتأثير السببي" (المعروف أيضًا باسم "التأثير المتزايد") "للمعالجة" على "فرد". وإليك مثالان:

قد يستخدم الأطباء أسلوب وضع النماذج لتحسين الأداء من أجل توقّع انخفاض معدّل الوفيات (التأثير السببي) نتيجة إجراء طبي (علاج) استنادًا إلى عمر المريض (الفرد) وتاريخه الطبي.
قد تستخدم جهات التسويق نماذج زيادة الإحالات الناجحة لتوقّع الزيادة في احتمال إجراء عملية شراء (التأثير السببي) بسبب إعلان (المعالجة) على شخص (فرد).

يختلف نموذج تحسين الاستجابة عن التصنيف أو الانحدار في أنّ بعض التصنيفات (على سبيل المثال، نصف التصنيفات في المعالجات الثنائية) تكون دائمًا غير متوفّرة في نموذج تحسين الاستجابة. على سبيل المثال، يمكن للمريض تلقّي العلاج أو عدم تلقّيه، وبالتالي، يمكننا ملاحظة ما إذا كان المريض سيشفى أو لن يشفى في إحدى هاتين الحالتين فقط (وليس في كلتيهما). تتمثّل الميزة الرئيسية لنموذج التحسّن في أنّه يمكنه إنشاء توقّعات للحالة غير المرصودة (الواقع الافتراضي) واستخدامها لاحتساب التأثير السببي.

زيادة الوزن

تطبيق وزن على الفئة المخفضة يساوي العامل الذي تم بناءً عليه تخفيض عدد العينات.

مصفوفة المستخدمين

في أنظمة الاقتراحات، متّجه التضمين هو متّجه تم إنشاؤه من خلال تحليل المصفوفات ويحتوي على إشارات كامنة حول تفضيلات المستخدم. يحتوي كل صف في مصفوفة المستخدمين على معلومات حول القوة النسبية لمختلف الإشارات الكامنة لمستخدم واحد. على سبيل المثال، لنفترض أنّ لديك نظامًا لاقتراح الأفلام. في هذا النظام، قد تمثّل الإشارات الكامنة في مصفوفة المستخدمين اهتمام كل مستخدم بأنواع معيّنة، أو قد تكون إشارات يصعب تفسيرها وتتضمّن تفاعلات معقّدة على مستوى عوامل متعدّدة.

تحتوي مصفوفة المستخدمين على عمود لكل ميزة كامنة وصف لكل مستخدم. أي أنّ مصفوفة المستخدمين تتضمّن عدد الصفوف نفسه الذي تتضمّنه المصفوفة المستهدَفة التي يتم تحليلها. على سبيل المثال، إذا كان لديك نظام اقتراحات للأفلام يضم 1,000,000 مستخدم، ستحتوي مصفوفة المستخدمين على 1,000,000 صف.

V

الإثبات

#fundamentals

التقييم الأوّلي لجودة النموذج تتحقّق عملية التحقّق من صحة البيانات من جودة توقّعات النموذج من خلال مقارنتها بمجموعة التحقّق من صحة البيانات.

بما أنّ مجموعة التحقّق تختلف عن مجموعة التدريب، يساعد التحقّق في الحماية من المطابقة بشكل مفرط.

يمكنك اعتبار تقييم النموذج استنادًا إلى مجموعة التحقّق بمثابة الجولة الأولى من الاختبار، وتقييم النموذج استنادًا إلى مجموعة الاختبار بمثابة الجولة الثانية من الاختبار.

فقدان التحقّق من الصحة

#fundamentals

#Metric

مقياس يمثّل الخسارة التي يتكبّدها النموذج على مجموعة التحقّق خلال تكرار معيّن من التدريب.

اطّلِع أيضًا على منحنى التعميم.

مجموعة التحقّق

#fundamentals

مجموعة فرعية من مجموعة البيانات التي تجري تقييمًا أوليًا مقارنةً بنموذج تم تدريبه. عادةً، يتم تقييم النموذج المدرَّب استنادًا إلى مجموعة التحقّق عدة مرات قبل تقييم النموذج استنادًا إلى مجموعة الاختبار.

عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية المميّزة:

مجموعة تدريب
مجموعة التحقّق
مجموعة اختبار

تقدير القيمة

عملية استبدال قيمة مفقودة بقيمة بديلة مقبولة عندما تكون إحدى القيم مفقودة، يمكنك إما تجاهل المثال بأكمله أو استخدام تقدير القيمة لإنقاذ المثال.

على سبيل المثال، لنفترض أنّ لديك مجموعة بيانات تحتوي على ميزة temperature من المفترض تسجيلها كل ساعة. ومع ذلك، لم تتوفّر قراءة درجة الحرارة لساعة معيّنة. في ما يلي قسم من مجموعة البيانات:

الطابع الزمني	درجة الحرارة
1680561000	10
1680564600	12
1680568200	غير متاحة
1680571800	20
1680575400	21
1680579000	21

يمكن للنظام إما حذف المثال المفقود أو إدخال درجة الحرارة المفقودة على أنّها 12 أو 16 أو 18 أو 20، وذلك حسب خوارزمية إدخال البيانات.

مشكلة التدرّج المتلاشي

هي ميل تدرّجات الطبقات المخفية المبكرة في بعض الشبكات العصبية العميقة إلى أن تصبح مسطّحة (منخفضة) بشكل مفاجئ. تؤدي التدرّجات المنخفضة بشكل متزايد إلى تغييرات أصغر بشكل متزايد في الأوزان على العُقد في شبكة عصبية عميقة، ما يؤدي إلى تعلّم ضئيل أو معدوم. تصبح النماذج التي تعاني من مشكلة تضاؤل التدرّج صعبة التدريب أو مستحيلة. تعالج خلايا الذاكرة الطويلة قصيرة الأمد هذه المشكلة.

قارِن ذلك بمشكلة التدرّج المتفجّر.

أهمية المتغيرات

#df

#Metric

مجموعة من النتائج تشير إلى الأهمية النسبية لكل سمة في النموذج.

على سبيل المثال، لنفترض أنّ لديك شجرة قرارات تقدّر أسعار المنازل. لنفترض أنّ شجرة القرار هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من أهمية المتغيرات للميزات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، فإنّ الحجم أكثر أهمية لشجرة القرار من العمر أو النمط.

تتوفّر مقاييس مختلفة لأهمية المتغيّرات، ويمكن أن تفيد خبراء تعلُّم الآلة بشأن جوانب مختلفة من النماذج.

الترميز التلقائي المتغيّر (VAE)

نوع من المشفّرات التلقائية التي تستفيد من التناقض بين المدخلات والمخرجات لإنشاء إصدارات معدّلة من المدخلات. تُعدّ برامج الترميز التلقائي المتغيرة مفيدة في الذكاء الاصطناعي التوليدي.

تستند نماذج VAE إلى الاستدلال المتغير، وهو أسلوب لتقدير مَعلمات نموذج الاحتمالية.

المتّجه

مصطلح عام جدًا يختلف معناه باختلاف المجالات الرياضية والعلمية. في إطار تعلُّم الآلة، يتضمّن المتّجه خاصيتَين:

نوع البيانات: تحتوي المتجهات في تعلُّم الآلة عادةً على أرقام الفاصلة العائمة.
عدد العناصر: هذا هو طول المتّجه أو بعده.

على سبيل المثال، لنفترض متجه ميزات يتضمّن ثمانية أرقام نقطة عائمة. يبلغ طول أو حجم متجه الميزات هذا ثمانية. يُرجى العِلم أنّ متّجهات تعلُّم الآلة غالبًا ما تحتوي على عدد كبير من الأبعاد.

يمكنك تمثيل العديد من أنواع المعلومات المختلفة كمتجه. على سبيل المثال:

يمكن تمثيل أي موضع على سطح الأرض كمتّجه ثنائي الأبعاد، حيث يمثّل أحد البُعدَين خط العرض والآخر خط الطول.
يمكن تمثيل الأسعار الحالية لكل سهم من 500 سهم كمتّجه ذي 500 بُعد.
يمكن تمثيل توزيع الاحتمالات على عدد محدود من الفئات كمتّجه. على سبيل المثال، يمكن لنظام التصنيف المتعدد الفئات الذي يتوقّع أحد ألوان الإخراج الثلاثة (الأحمر أو الأخضر أو الأصفر) أن يُخرج المتّجه (0.3, 0.2, 0.5) ليعني P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

يمكن ربط المتجهات ببعضها، وبالتالي يمكن تمثيل مجموعة متنوعة من الوسائط المختلفة كمتجه واحد. تعمل بعض النماذج مباشرةً على تسلسل العديد من عمليات الترميز الواحد الفعّال.

تم تحسين المعالِجات المتخصّصة، مثل وحدات معالجة الموتّرات، لتنفيذ العمليات الرياضية على المتّجهات.

المتجه هو موتر الرتبة 1.

الذروة

#GoogleCloud

#generativeAI

منصة Google Cloud للذكاء الاصطناعي وتعلُّم الآلة توفّر Vertex أدوات وبنية تحتية لإنشاء تطبيقات الذكاء الاصطناعي وتفعيلها وإدارتها، بما في ذلك إمكانية الوصول إلى نماذج Gemini.

البرمجة الوصفية

#generativeAI

إدخال طلب إلى نموذج ذكاء اصطناعي توليدي لإنشاء برنامج أي أنّ الطلبات التي تقدّمها تصف الغرض من البرنامج وميزاته، ويحوّلها نموذج الذكاء الاصطناعي التوليدي إلى رمز مصدر. لا يتطابق الرمز البرمجي الذي تم إنشاؤه دائمًا مع نواياك، لذا تتطلّب البرمجة الوصفية عادةً تكرارًا.

صاغ أندريه كارباثي مصطلح "ترميز الأجواء" في منشور X هذا. في منشور X، وصفها كارباثي بأنّها "نوع جديد من الترميز... حيث تستسلم تمامًا للأجواء...". لذلك، كان المصطلح يشير في الأصل إلى نهج متساهل عن قصد في إنشاء البرامج، حيث قد لا يتم حتى فحص الرمز البرمجي الذي تم إنشاؤه. ومع ذلك، تطوّر هذا المصطلح بسرعة في العديد من الأوساط ليصبح يشير الآن إلى أي شكل من أشكال الترميز من إنشاء الذكاء الاصطناعي.

للحصول على وصف أكثر تفصيلاً حول البرمجة الوصفية، يمكنك الاطّلاع على المقالة ما هي البرمجة الوصفية؟

بالإضافة إلى ذلك، قارِن بين البرمجة الوصفية و:

الترميز الوصفي
الترميز الحواري

واط

فقدان Wasserstein

#Metric

إحدى دوال الخسارة الشائعة الاستخدام في الشبكات التوليدية الخصومية، استنادًا إلى مسافة نقل التربة بين توزيع البيانات التي تم إنشاؤها والبيانات الحقيقية

الوزن

#fundamentals

قيمة يضربها النموذج في قيمة أخرى. التدريب هو عملية تحديد الأوزان المثالية للنموذج، أما الاستدلال فهو عملية استخدام تلك الأوزان التي تم تعلّمها لإجراء التوقعات.

انقر على الرمز للاطّلاع على مثال للأوزان في نموذج خطي.

لنفترض نموذجًا خطيًا يتضمّن سمتَين. لنفترض أنّ التدريب يحدّد الأوزان التالية (والانحياز):

قيمة الانحياز b هي 2.2
وزن السمة w₁ المرتبط بإحدى الميزات هو 1.5.
وزن الميزة الأخرى، w₂، هو 0.4.

لنفترض الآن مثالاً بقيم الميزات التالية:

قيمة إحدى الميزات، x₁، هي 6.
قيمة الميزة الأخرى، x₂، هي 10.

يستخدم هذا النموذج الخطي الصيغة التالية لإنشاء قيمة متوقّعة، ص':

$$y' = b + w_1x_1 + w_2x_2$$

وبالتالي، يكون التوقّع كما يلي:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

إذا كان الوزن 0، لن تساهم الميزة المقابلة في النموذج. على سبيل المثال، إذا كانت قيمة w₁ هي 0، فإنّ قيمة x₁ لا تكون مهمة.

يمكنك الاطّلاع على الانحدار الخطي في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

طريقة المربّعات الصغرى المتناوبة المرجّحة (WALS)

خوارزمية لتقليل دالة الهدف أثناء تحليل المصفوفة في أنظمة الاقتراحات، ما يسمح بتقليل وزن الأمثلة الناقصة. تخفّض طريقة المربّعات الصغرى المرجّحة الخطأ التربيعي المرجّح بين المصفوفة الأصلية وإعادة الإنشاء من خلال التبديل بين تثبيت تحليل الصفوف وتحليل الأعمدة. يمكن حلّ كلّ من عمليات تحسين الدالّة المحدّبة هذه باستخدام طريقة المربّعات الصغرى. لمزيد من التفاصيل، يُرجى الاطّلاع على دورة أنظمة الاقتراحات.

المجموع الموزون

#fundamentals

مجموع كل قيم الإدخال ذات الصلة مضروبًا في الأوزان المقابلة لها على سبيل المثال، لنفترض أنّ المدخلات ذات الصلة تتألف مما يلي:

قيمة الإدخال	وزن الإدخال
2	‎-1.3
-1	0.6
3	0.4

وبالتالي، يكون المجموع المرجّح كما يلي:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

المجموع المرجّح هو وسيطة الإدخال إلى دالة التنشيط.

WiC

#Metric

اختصار الكلمات في السياق

نموذج واسع

نموذج خطي يتضمّن عادةً العديد من سمات الإدخال المتفرقة. نطلق على هذا النوع من النماذج اسم "واسع" لأنّه نوع خاص من الشبكات العصبية يتضمّن عددًا كبيرًا من المدخلات التي تتصل مباشرةً بعقدة الإخراج. غالبًا ما يكون من الأسهل تصحيح أخطاء النماذج الواسعة وفحصها مقارنةً بالنماذج العميقة. على الرغم من أنّ النماذج الواسعة لا يمكنها التعبير عن العلاقات غير الخطية من خلال الطبقات المخفية، يمكنها استخدام عمليات تحويل مثل تداخل الميزات والتجميع في فئات لنمذجة العلاقات غير الخطية بطرق مختلفة.

يختلف عن النموذج العميق.

العرض

عدد الخلايا العصبية في طبقة معيّنة من شبكة عصبية

WikiLingua (wiki_lingua)

#Metric

مجموعة بيانات لتقييم قدرة نموذج لغوي كبير على تلخيص المقالات القصيرة WikiHow هي موسوعة تضم مقالات تشرح كيفية تنفيذ مهام مختلفة، وهي مصدر المحتوى الذي كتبه الإنسان لكل من المقالات والملخّصات. يتألف كل إدخال في مجموعة البيانات مما يلي:

مقال، يتم إنشاؤه من خلال إضافة كل خطوة من النسخة النثرية (فقرة) من القائمة المرقمة، باستثناء الجملة الافتتاحية لكل خطوة.
ملخّص لتلك المقالة يتألف من الجملة الافتتاحية لكل خطوة في القائمة المرقمة

لمزيد من التفاصيل، يُرجى الاطّلاع على WikiLingua: مجموعة بيانات جديدة لقياس أداء التلخيص الاستخلاصي المتعدد اللغات.

تحدّي مخطط وينوغراد (WSC)

#Metric

تنسيق (أو مجموعة بيانات متوافقة مع هذا التنسيق) لتقييم قدرة نموذج لغوي كبير على تحديد العبارة الاسمية التي يشير إليها الضمير.

يتألف كل إدخال في تحدي Winograd Schema مما يلي:

مقطع قصير يحتوي على ضمير مستهدف
ضمير الهدف
عبارات اسمية مرشّحة، متبوعة بالإجابة الصحيحة (قيمة منطقية). إذا كان الضمير المستهدَف يشير إلى هذا المرشّح، تكون الإجابة "صحيح". إذا لم يشِر الضمير المستهدَف إلى هذا المرشّح، تكون الإجابة False.

على سبيل المثال:

مقتطف: أخبر "مارك" "بيت" العديد من الأكاذيب عن نفسه، وقد أدرجها "بيت" في كتابه. كان عليه أن يكون أكثر صدقًا.
الضمير المستهدَف: هو
عبارات اسمية مرشّحة:
- الإجابة: صحيحة، لأنّ الضمير المستهدَف يشير إلى "مارك"
- بيتر: خطأ، لأنّ الضمير المستهدف لا يشير إلى بيتر

يشكّل تحدّي Winograd Schema جزءًا من مجموعة SuperGLUE.

حكمة الجموع

#df

تشير إلى فكرة أنّ احتساب متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص (أي "الجمهور") غالبًا ما يؤدي إلى نتائج جيدة بشكل مدهش. على سبيل المثال، لنفترض أنّ هناك لعبة يخمّن فيها المشاركون عدد حبّات الحلوى الهلامية المعبّأة في مرطبان كبير. مع أنّ معظم التخمينات الفردية ستكون غير دقيقة، تبيّن تجريبيًا أنّ متوسط جميع التخمينات يكون قريبًا بشكل مدهش من العدد الفعلي لحبات الحلوى الهلامية في المرطبان.

المجموعات هي نظير برمجي لـ "حكمة الجموع". حتى إذا كانت النماذج الفردية تقدّم توقّعات غير دقيقة بشكل كبير، فإنّ حساب متوسط التوقّعات الناتجة عن العديد من النماذج يؤدي غالبًا إلى توقّعات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة القرار الفردية قد تقدّم تنبؤات غير دقيقة، إلا أنّ غابة القرار غالبًا ما تقدّم تنبؤات دقيقة جدًا.

WMT

بشكل غريب، هو اختصار لمؤتمر حول الترجمة الآلية. (الاختصار هو WMT لأنّ الاسم الأصلي كان Workshop on Machine Translation). يركّز المؤتمر على التطورات في أنظمة الترجمة الآلية.

تضمين الكلمات

تمثيل كل كلمة في مجموعة كلمات ضمن متجه تضمين، أي تمثيل كل كلمة كمتجه من قيم النقطة العائمة بين 0.0 و1.0 تكون تمثيلات الكلمات ذات المعاني المتشابهة أكثر تشابهًا من تمثيلات الكلمات ذات المعاني المختلفة. على سبيل المثال، سيكون لكل من الجزر والكرفس والخيار تمثيلات متشابهة نسبيًا، وستكون مختلفة تمامًا عن تمثيلات الطائرة والنظارات الشمسية ومعجون الأسنان.

الكلمات في السياق (WiC)

#Metric

مجموعة بيانات لتقييم مدى جودة استخدام نموذج لغوي كبير للسياق من أجل فهم الكلمات التي لها معانٍ متعددة. يحتوي كل إدخال في مجموعة البيانات على ما يلي:

جملتان تحتوي كل منهما على الكلمة المستهدَفة
الكلمة المستهدَفة
الإجابة الصحيحة (قيمة منطقية)، حيث:
- تعني القيمة "صحيح" أنّ الكلمة المستهدَفة تحمل المعنى نفسه في الجملتَين
- تعني القيمة False أنّ الكلمة المستهدَفة لها معنى مختلف في الجملتين

على سبيل المثال:

جملتان:
- هناك الكثير من القمامة في قاع النهر.
- أضع كوبًا من الماء بجانب سريري عندما أنام.
الكلمة المستهدَفة: سرير
الإجابة الصحيحة: خطأ، لأنّ الكلمة المستهدَفة لها معنى مختلف في الجملتين.

لمزيد من التفاصيل، يُرجى الاطّلاع على WiC: مجموعة بيانات Word-in-Context لتقييم تمثيلات المعاني الحساسة للسياق.

‫Words in Context هي أحد مكوّنات مجموعة SuperGLUE.

WSC

#Metric

اختصار تحدّي مخطط وينوغراد

X

XLA (الجبر الخطي المسرَّع)

برنامج تجميع مفتوح المصدر لتعلُّم الآلة مخصّص لوحدات معالجة الرسومات ووحدات المعالجة المركزية ومسرّعات تعلُّم الآلة

يأخذ برنامج التجميع XLA النماذج من أُطر تعلُّم الآلة الشائعة، مثل PyTorch وTensorFlow وJAX، ويحسّنها لتحقيق أداء عالٍ على مختلف منصات الأجهزة، بما في ذلك وحدات معالجة الرسومات ووحدات المعالجة المركزية ومسرّعات تعلُّم الآلة.

XL-Sum (xlsum)

#Metric

مجموعة بيانات لتقييم كفاءة نموذج لغوي كبير في تلخيص النصوص تقدّم XL-Sum إدخالات بلغات عديدة. يحتوي كل إدخال في مجموعة البيانات على ما يلي:

مقالة مأخوذة من هيئة الإذاعة البريطانية (BBC)
تمثّل هذه السمة ملخّصًا للمقالة كتبه مؤلفها. يُرجى العِلم أنّ هذا الملخّص يمكن أن يحتوي على كلمات أو عبارات غير واردة في المقالة.

لمزيد من التفاصيل، يُرجى الاطّلاع على XL-Sum: تلخيص تجريدي متعدد اللغات على نطاق واسع لـ 44 لغة.

xsum

اختصار Extreme Summarization

Z

التعلّم بلا أمثلة

نوع من تدريب تعلُّم الآلة حيث يستنتج النموذج توقّعًا لمَهمّة لم يتم تدريبه عليها بشكل محدّد. بعبارة أخرى، لا يتلقّى النموذج أي أمثلة تدريبية خاصة بالمهمة، ولكن يُطلب منه إجراء استنتاج لهذه المهمة.

التلقين بلا أمثلة

#generativeAI

طلب لا يقدّم مثالاً على الطريقة التي تريد أن يردّ بها النموذج اللغوي الكبير. على سبيل المثال:

أجزاء من طلب واحد	ملاحظات
`ما هي العملة الرسمية للبلد المحدّد؟`	السؤال الذي تريد أن تجيب عنه النماذج اللغوية الكبيرة
`الهند:`	طلب البحث الفعلي

قد يردّ النموذج اللغوي الكبير بأي مما يلي:

روبية
INR
ر.ه.‏
الروبية الهندية
الروبية
الروبية الهندية

جميع الإجابات صحيحة، ولكن قد تفضّل تنسيقًا معيّنًا.

قارِن بين الطلب بدون أمثلة والمصطلحات التالية:

التلقين بمثال واحد
التلقين ببضع أمثلة

التسوية باستخدام درجة Z

#fundamentals

التحجيم هو أسلوب يستبدل قيمة سمة أولية بقيمة فاصلة عائمة تمثّل عدد الانحرافات المعيارية عن متوسط تلك السمة. على سبيل المثال، لنفترض أنّ هناك ميزة متوسطها 800 وانحرافها المعياري 100. يوضّح الجدول التالي كيف يمكن أن يؤدي التوحيد القياسي لنتائج Z إلى ربط القيمة الأولية بنتيجة Z الخاصة بها:

قيمة أساسية	الدرجة المعيارية
800	0
950	‫+1.5
575	-2.25

بعد ذلك، يتم تدريب نموذج تعلُّم الآلة على قيم Z الخاصة بهذه الميزة بدلاً من القيم الأولية.

يمكنك الاطّلاع على البيانات الرقمية: التسوية في "دورة مكثّفة عن تعلّم الآلة" للحصول على مزيد من المعلومات.

مسرد مصطلحات تعلُم الآلة تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

A

الاستئصال

اختبار A/B

شريحة تسريع

الدقة

انقر على الرمز للحصول على تفاصيل حول الدقة ومجموعات البيانات غير المتوازنة بين الفئات.

التصرف

إجراء

مساحة الإجراء

دالّة التفعيل

انقر على الرمز للاطّلاع على مثال.

التعلّم النشط

AdaGrad

التكيّف

وكيل

يستند إلى الذكاء الاصطناعي الوكيل

حلقة الذكاء الاصطناعي الوكيل

سير العمل القائم على وكلاء الذكاء الاصطناعي

تنظيم الوكلاء

التجميع من الأسفل إلى الأعلى

محتوى ذكاء اصطناعي منخفض الجودة

رصد القيم الشاذة

الواقع المعزّز

المساحة تحت منحنى الدقة والاستدعاء

المساحة تحت منحنى ROC

الذكاء الاصطناعي العام

الذكاء الاصطناعي

تنبيه

السمة

أخذ عيّنات من السمات

المساحة تحت منحنى ROC

انقر على الرمز للتعرّف على العلاقة بين منحنيَي AUC وROC.

انقر على الرمز للحصول على تعريف أكثر رسمية لمقياس "المساحة تحت المنحنى".

الواقع المعزّز

autoencoder

التقييم التلقائي

الانحياز للاقتراحات الآلية

AutoML

وكيل مستقل

تقييم أداة التقييم التلقائي

نموذج الانحدار التلقائي

الخسارة الإضافية

متوسط الدقة عند k

انقر على الرمز للاستماع إلى مثال

شرط محاذاة المحور

B

الانتشار العكسي

التجميع

حقيبة الكلمات

الخط الأساسي

النموذج الأساسي

دفعة

الاستنتاج المجمّع

التسوية على دفعات

حجم الدفعة

شبكة عصبية بايزية

التحسين البايزي

معادلة بيلمان

‫BERT (تمثيلات الترميز الثنائية الاتجاه من المحولات)

التحيّز (الأخلاقيات/العدالة)

الانحياز (الرياضيات) أو مصطلح الانحياز

ثنائي الاتجاه

نموذج لغوي ثنائي الاتجاه

bigram

التصنيف الثنائي

حالة ثنائية

تحويل القيم

نموذج الصندوق الأسود

‫BLEU (التقييم الثنائي للغة)

BLEURT (Bilingual Evaluation Understudy from Transformers)

أسئلة منطقية (BoolQ)

BoolQ

التعزيز

مربّع الحدود

البث

انقر على الرمز للاستماع إلى مثال.

تصنيف البيانات

انقر على الرمز للاطّلاع على ملاحظات إضافية.

C

مسرد مصطلحات تعلُم الآلة