مسرد مصطلحات التعلم الآلي: نماذج الصور

تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات نماذج الصور. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.

جيم

الواقع المعزّز

#image

يشير ذلك المصطلح إلى تقنية تتراكب صورة يتم إنشاؤها باستخدام الكمبيوتر على وجهة نظر المستخدم للعالم الواقعي، وتوفّر بالتالي عرضًا مركّبًا.

برنامج ترميز تلقائي

#language
#image

نظام يتعلم استخراج أهم المعلومات من الإدخال. إنّ برامج الترميز التلقائية هي مزيج من برنامج ترميز وبرنامج فك الترميز. تعتمد برامج الترميز التلقائي على العملية التالية المكونة من خطوتَين:

  1. يعيّن برنامج الترميز الإدخال إلى تنسيق منخفض الأبعاد (عادةً) منخفض الأبعاد (متوسط).
  2. ينشئ برنامج فك الترميز نسخة مفقودة من الإدخال الأصلي عن طريق ربط التنسيق الأقل أبعادًا بتنسيق الإدخال الأصلي ذي الأبعاد الأعلى.

يتم تدريب برامج الترميز التلقائية بشكل تام بين الأطراف من خلال محاولة إعادة إنشاء الإدخال الأصلي من التنسيق المتوسط لبرنامج الترميز بأقرب شكل ممكن. وبما أنّ التنسيق المتوسط أصغر (أقلّ أبعادًا) من التنسيق الأصلي، يصبح برنامج الترميز التلقائي مضطرًا إلى التعرّف على المعلومات الضرورية في الإدخال، ولن يكون المُخرج مطابقًا تمامًا للمُدخل.

مثلاً:

  • إذا كانت بيانات الإدخال عبارة عن رسم، فإن النسخة غير الدقيقة ستكون مشابهة للرسم الأصلي، ولكن تم تعديلها إلى حد ما. ربما تزيل النسخة غير الدقيقة التشويش من الرسم الأصلي أو تملأ بعض وحدات البكسل المفقودة.
  • إذا كانت بيانات الإدخال نصية، سينشئ برنامج الترميز التلقائي نصًا جديدًا يحاكي النص الأصلي (ولكنه ليس مطابقًا له).

راجِع أيضًا برامج الترميز التلقائي المختلفة.

نموذج الانحدار التلقائي

#language
#image
#generativeAI

model يستنتج توقّعًا استنادًا إلى توقّعاته السابقة. على سبيل المثال، تتوقّع نماذج اللغة الانحدارية التلقائية الرمز المميّز التالي استنادًا إلى الرموز المميّزة التي كان يتم توقّعها سابقًا. جميع النماذج اللغوية الكبيرة المستندة إلى المحوّل هي انحدار تلقائي.

وفي المقابل، لا تكون نماذج الصور المستندة إلى GAN انحدارية تلقائيًا لأنها تنشئ صورة في تصريح أمامي واحد وليس تكرارًا على خطوات. في المقابل، إنّ بعض نماذج إنشاء الصور تتراجع تلقائيًا لأنّها تنشئ صورة بخطوات.

B

مربع الإحاطة

#image

في إحدى الصور، إحداثيات (x، y) مستطيل حول منطقة اهتمام، مثل الكلب في الصورة أدناه.

صورة لكلب يجلس على أريكة. يحيط مربع إحاطة أخضر
          يحتوي على إحداثيات من أعلى اليسار للرقم (275، 1271)
          وإحداثيات أسفل اليمين للرقم (2954، 2761) بجسم الكلب

C

التواء

#image

في الرياضيات، على وجه التحديد، مزيج من دالتين. في التعلّم الآلي، يمزج الالتفاف بين الفلتر الالتفافي ومصفوفة الإدخال لتدريب الأوزان.

غالبًا ما يكون مصطلح "الالتفاف" في تقنية تعلُّم الآلة طريقة مختصرة للإشارة إلى العملية الالتفافية أو الطبقة الالتفافية.

بدون اللفّات، يجب أن تتعرّف خوارزمية تعلُّم الآلة على وزن منفصل لكل خلية في موتر كبير. على سبيل المثال، عند تطبيق خوارزمية تعلُّم الآلة على صور بدقة 2K × 2K، يجب تحديد أوزان منفصلة بمقدار 4 ملايين. بفضل اللفّات، لا تحتاج خوارزمية تعلُّم الآلة سوى تحديد أوزان لكل خلية في الفلتر الالتفافي، ما يقلل بشكل كبير من الذاكرة اللازمة لتدريب النموذج. عند تطبيق عامل التصفية الالتفافية، يتم نسخه ببساطة عبر الخلايا بحيث يتم ضرب كل منها في عامل التصفية.

فلتر التفافي

#image

أحد الممثلين في عملية التفافية. (العامل الآخر هو شريحة من مصفوفة الإدخال). عامل التصفية الالتفافية هو مصفوفة لها الترتيب نفسه كمصفوفة الإدخال، ولكنها ذات شكل أصغر. على سبيل المثال، بناءً على مصفوفة إدخال 28×28، يمكن أن يكون عامل التصفية أي مصفوفة ثنائية الأبعاد أصغر من 28×28.

في المعالجة الضوئية، يتم عادةً ضبط جميع الخلايا في عامل تصفية التفافية على نمط ثابت للآحاد والأصفار. في التعلّم الآلي، تستند الفلاتر الالتفافية عادةً إلى أرقام عشوائية ثم تدرّب الشبكة على القيم المثالية.

طبقة التفافية

#image

طبقة من شبكة عصبية عميقة يمر فيها فلتر التفافي على مصفوفة إدخال. على سبيل المثال، يمكنك استخدام الفلتر الالتفافي بتنسيق 3×3 التالي:

مصفوفة 3×3 بالقيم التالية: [[0,1,0]، [1,0,1]، [0,1,0]]

تُظهر الصورة المتحركة التالية طبقة التفافية تتكون من 9 عمليات التفافية تشمل مصفوفة إدخال 5×5. لاحظ أن كل عملية التفافية تعمل على شريحة 3×3 مختلفة من مصفوفة الإدخال. تتكون مصفوفة 3×3 الناتجة (على اليمين) من نتائج عمليات التفافية 9:

صورة متحركة تعرض مصفوفتين. والمصفوفة الأولى هي المصفوفة 5×5: [[128,97,53,201,198] و[35,22,25,200,195] و[37,24,28,197,182] و[33,28,92,195,170,910,210,310],25,200,195]،
          والمصفوفة الثانية هي مصفوفة 3×3:
          [[181,303,618]، [115,338,605]، [169,351,560]].
          يتم حساب المصفوفة الثانية من خلال تطبيق الفلتر الالتفافي [[0، 1، 0]، [1، 0، 1]، [0، 1، 0]] على
          
          مجموعات فرعية مختلفة من فئة 3×3 من مصفوفة 5×5.

شبكة عصبونية التفافية

#image

يشير ذلك المصطلح إلى شبكة عصبية تكون فيها طبقة واحدة على الأقل طبقة التفافية. تتكون الشبكة العصبية الالتفافية النموذجية من مجموعة من الطبقات التالية:

حققت الشبكات العصبية الالتفافية نجاحًا كبيرًا في بعض أنواع المشاكل، مثل التعرّف على الصور.

عملية التفافية

#image

العملية الرياضية التالية المكونة من خطوتين:

  1. يشير ذلك المصطلح إلى ضرب العناصر في الفلتر الالتفافي وشريحة من مصفوفة الإدخال. (لشريحة مصفوفة الإدخال نفس الترتيب والحجم مثل الفلتر الالتفافي).
  2. يشير ذلك المصطلح إلى جمع كل القيم في مصفوفة المنتجات الناتجة.

على سبيل المثال، ضع في الاعتبار مصفوفة إدخال 5×5 التالية:

مصفوفة 5×5: [[128,97,53,201,198]، [35,22,25,200,195]،
          [37,24,28,197,182]، [33,28,92,195,179]، [10,910,9]

تخيل الآن الفلتر الالتفافي 2×2 التالي:

مصفوفة 2×2: [[1، 0]، [0، 1]]

تتضمن كل عملية التفافية شريحة واحدة 2×2 من مصفوفة الإدخال. على سبيل المثال، لنفترض أننا نستخدم شريحة 2×2 في الجزء العلوي الأيسر من مصفوفة الإدخال. إذن، تبدو عملية الالتفاف على هذه الشريحة على النحو التالي:

تطبيق الفلتر الالتفافي [[1، 0]، [0، 1]] على القسم 2×2 أعلى اليسار من مصفوفة الإدخال، وهو [[128,97]، [35,22]].
          يترك الفلتر الالتفافي 128 و22 بدون تغيير، لكنّ الأصفار
          يخرجان 97 و35. وبالتالي، تساوي عملية اللفّ القيمة 150 (128+22).

تتكون الطبقة الالتفافية من سلسلة من العمليات الالتفافية، وتعمل كل منها على شريحة مختلفة من مصفوفة الإدخال.

D

زيادة البيانات

#image

يمكنك بشكل مصطنع زيادة نطاق أمثلة التدريب وعدد هذه الأمثلة من خلال تحويل أمثلة على الأمثلة الحالية لإنشاء أمثلة إضافية. على سبيل المثال، افترض أنّ الصور هي إحدى الميزات لديك، لكن مجموعة البيانات لا تحتوي على أمثلة كافية للصور للنموذج من أجل معرفة الارتباطات المفيدة. من الناحية المثالية، يمكنك إضافة ما يكفي من الصور المصنَّفة إلى مجموعة البيانات لتمكين نموذجك من التدريب بشكل صحيح. إذا لم يكن ذلك ممكنًا، فيمكن أن تؤدي زيادة البيانات إلى تدوير كل صورة وتوسيعها وعكسها لإنتاج العديد من المتغيرات للصورة الأصلية، ما قد ينتج عنه بيانات مصنفة كافية لتوفير تدريب ممتاز.

شبكة عصبونية التفافية قابلة للفصل العميق (sepCNN)

#image

يشير ذلك المصطلح إلى بنية شبكة عصبونية التفافية تستند إلى Inception، ولكن يتم فيه استبدال وحدات Inception بلفات مفصولة بشكل عميق. وتُعرف أيضًا باسم Xception.

يعمل اللفّ القابل للفصل العميق (واختصاره أيضًا باسم الالتفاف القابل للفصل 🎟) على تحويل اللفّ القياسي ثلاثي الأبعاد إلى عمليتَي التفاف منفصلتين أكثر كفاءة من الناحية الحسابية: أولاً، اللفّ العمق بعمق 1 (n كو RDFa 1)، ثم ثانيًا، اللفّات العرضية والنقطة 1

لمعرفة المزيد من المعلومات، يمكنك الاطّلاع على مقالة Xception: Deeping Learning with Depthwise Separable Convolutions.

خفض العيّنات

#image

مصطلح "محمّل بشكل زائد" يمكن أن يعني أيًا مما يلي:

  • تقليل مقدار المعلومات في ميزة بهدف تدريب نموذج بشكلٍ أكثر كفاءة على سبيل المثال، قبل تدريب أحد نماذج التعرف على الصور، وخفض نسبة الصور عالية الدقة إلى تنسيق أقل دقة.
  • التدريب على أمثلة ذات نسبة منخفضة بشكل غير متناسب من أمثلة الصفوف الممثّلة بشكل زائد عن الحد من أجل تحسين تدريب النماذج على الفئات التي لا تحظى بالتمثيل الكافي. على سبيل المثال، في مجموعة بيانات غير متوازنة فئوية، تميل النماذج إلى معرفة الكثير عن فئة الغالبية ولا تتعلم الكثير عن فئة الأقليات. يساعد تضييق نطاق العينات في تحقيق التوازن بين مقدار التدريب على طبقات الأغلبية والأقليات.

F

الضبط الدقيق

#language
#image
#generativeAI

هو تصريح تدريب ثان خاص بمهمة يتم إجراؤه على نموذج مدرَّب مسبقًا لتحسين معلَماته في حالة استخدام معيّنة. على سبيل المثال، في ما يلي تسلسل التدريب الكامل لبعض النماذج اللغوية الكبيرة:

  1. تدريب مسبق: يمكنك تدريب نموذج لغوي كبير على مجموعة بيانات عامة واسعة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
  2. ضبط الصوت بدقة: يمكنك تدريب نموذج مدرَّب مسبقًا لأداء مهمة محدّدة، مثل الاستجابة للطلبات الطبية. يتضمن الضبط الدقيق عادةً مئات أو آلاف الأمثلة التي تركز على المهمة المحددة.

ومثال آخر على ذلك هو تسلسل التدريب الكامل لنموذج الصور الكبيرة على النحو التالي:

  1. تدريب مسبق: درِّب على نموذج صورة كبير على مجموعة بيانات صور عامة واسعة، مثل جميع الصور في Wikimedia Commons.
  2. الضبط الدقيق: تدريب النموذج المدرَّب مسبقًا لأداء مهمة محددة، مثل إنشاء صور حيتان أوركا.

يمكن أن يستلزم الضبط الدقيق أي مجموعة من الاستراتيجيات التالية:

  • تعديل جميع المَعلمات الحالية للنموذج المدرَّب مسبقًا. ويسمى هذا أحيانًا الضبط الكامل.
  • تعديل بعض المعلَمات الحالية فقط في النموذج المدرَّب مسبقًا (عادةً، الطبقات الأقرب إلى طبقة المخرجات)، مع الاحتفاظ بالمعلَمات الحالية الأخرى بدون تغيير (عادةً، الطبقات الأقرب إلى طبقة الإدخال). اطّلِع على ضبط فعالية المعلَمات.
  • إضافة المزيد من الطبقات، عادةً فوق الطبقات الحالية الأقرب إلى طبقة المخرجات.

الضبط الدقيق هو شكل من أشكال نقل التعلّم. وبالتالي، قد يستخدم الضبط الدقيق دالة خسارة مختلفة أو نوع نموذج مختلف عن تلك المستخدمة لتدريب النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج صور كبير مدرَّب مسبقًا لإنشاء نموذج انحدار يعرض عدد الطيور في صورة إدخال.

المقارنة والتباين في الضبط الدقيق باستخدام المصطلحات التالية:

G

الذكاء الاصطناعي التوليدي

#language
#image
#generativeAI

مجال تحويلي صاعد بدون تعريف رسمي. يتفق معظم الخبراء على أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنشاء ("إنشاء") محتوى ينطبق عليه كل ما يلي:

  • معقد
  • متماسكة
  • الصورة الأصلية

على سبيل المثال، يمكن لنموذج الذكاء الاصطناعي التوليدي إنشاء مقالات أو صور معقدة.

يمكن أيضًا لبعض التقنيات السابقة، بما في ذلك LSTM وRNN، إنشاء محتوى أصلي ومتناسق. يرى بعض الخبراء أنّ هذه التقنيات السابقة هي ذكاء اصطناعي توليدي، بينما يعتقد البعض الآخر أنّ الذكاء الاصطناعي التوليدي الحقيقي يتطلّب إنتاج بيانات أكثر تعقيدًا من تلك التي يمكن أن تنتجها التكنولوجيات السابقة.

تتعارض مع تعلُّم الآلة القائم على التوقّعات.

I

التعرّف على الصورة

#image

يشير ذلك المصطلح إلى عملية تصنّف الكائنات أو الأنماط أو المفاهيم في صورة. يُعرف التعرُّف على الصور أيضًا باسم تصنيف الصور.

لمزيد من المعلومات، يُرجى الاطّلاع على تدريب تعلّم الآلة: تصنيف الصور.

التقاطع عبر الاتحاد (IoU)

#image

يشير ذلك المصطلح إلى تقاطع مجموعتين مقسومًا على اتحادهما. في مهام رصد الصور المستندة إلى التعلّم الآلي، يتم استخدام وحدة IoU لقياس دقة مربّع الإحاطة المتوقَّع للنموذج في ما يتعلق بمربّع الإحاطة بالواقع. في هذه الحالة، فإن وحدة IoU للمربعين هي النسبة بين المنطقة المتداخلة والمساحة الإجمالية، وتتراوح قيمتها من 0 (لا يوجد تداخل بين مربع الإحاطة المتوقع ومربع حدود الحقيقة) إلى 1 (مربع الإحاطة المتنبأ به ومربع تحديد الحقيقة الأرضي لهما نفس الإحداثيات).

على سبيل المثال، في الصورة أدناه:

  • يتم تحديد مربع الإحاطة المتوقع (الإحداثيات التي تحدد المكان الذي يتوقع فيه النموذج الطاولة الليلية في اللوحة) باللون الأرجواني.
  • يتم تحديد مربع حدود الحقيقة (الإحداثيات التي تحدد مكان الطاولة الليلية في اللوحة بالفعل) باللون الأخضر.

لوحة "فان غوخ" بعنوان "غرفة نوم فنسنت في أرليس"، مع وجود مربّعَين مختلفَين حول الطاولة الليلية بجانب السرير. ويحيط المربّع المحيط بالأرض (باللون الأخضر) على الطاولة الليلية بشكل مثالي. إنّ مربّع الإحاطة المتوقَّع (باللون البنفسجي) يميل إلى الأسفل بنسبة 50% إلى يمين مربع حدود الحقيقة، وهو يضم الربع السفلي الأيمن من الجدول الليلي، إلا أنه يفوته بقية الطاولة.

هنا، يكون تقاطع مربّعات الحدود للتنبؤ والحقيقة الفعلية (أسفل اليسار) هو 1، واتحاد مربعات الحدود للتنبؤ والحقيقة الفعلية (أسفل اليمين) يساوي 7، وبالتالي فإن وحدة IoU هي \(\frac{1}{7}\).

الصورة نفسها كما في المثال أعلاه، ولكن مع تقسيم كل مربع إحاطة إلى أربعة
          أرباع. هناك سبعة أرباع، بما أنّ ربع الدائرة السفلية جهة اليمين
          
          لمربّع تحديد الحقيقة والربع العلوي الأيسر من مربّع الإحاطة المتوقّع يتداخل مع بعضهما. يمثّل هذا القسم المتداخل (المميّز باللون الأخضر) التقاطع، ومساحةته 1. الصورة نفسها كما في المثال أعلاه، ولكن مع تقسيم كل مربع إحاطة إلى أربعة
          أرباع. هناك سبعة أرباع، بما أنّ ربع الدائرة السفلية جهة اليمين
          
          لمربّع تحديد الحقيقة والربع العلوي الأيسر من مربّع الإحاطة المتوقّع يتداخل مع بعضهما.
          المساحة الداخلية بالكامل المُحاطة بمربّعي الإحاطة (المظللين باللون الأخضر) تمثّل الاتحاد، ومساحة 7 بها مساحة 7.

K

النقاط الرئيسية

#image

إحداثيات عناصر معينة في صورة. على سبيل المثال، بالنسبة إلى نموذج التعرّف على الصور الذي يميّز أنواع الزهور، قد تكون النقاط الرئيسية هي مركز كل بتلة أو ساقها أو سداة وما إلى ذلك.

L

المعالم

#image

مرادف keypoints

ن

المعهد الوطني للمعايير والتكنولوجيا (MNIST)

#image

هي مجموعة بيانات من النطاق العام تم تجميعها بواسطة LeCun وCortes وBurgs والتي تحتوي على 60,000 صورة، توضح كل صورة كيف كتب شخص يدويًا رقمًا معينًا من 0 إلى 9. يتم تخزين كل صورة كصفيف 28×28 من الأعداد الصحيحة، حيث يكون كل عدد صحيح عبارة عن قيمة تدرّج رمادي تتراوح بين 0 و255، بشكل شامل.

تُعد MNIST مجموعة بيانات أساسية للتعلم الآلي، وغالبًا ما تستخدم لاختبار أساليب التعلم الآلي الجديدة. للحصول على تفاصيل، راجع قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد.

P

تجميع

#image

تقليل مصفوفة (أو مصفوفات) تم إنشاؤها بواسطة طبقة التفافية سابقة إلى مصفوفة أصغر عادة ما يتضمن التجميع أخذ إما الحد الأقصى أو المتوسط للقيمة عبر المنطقة المجمعة. على سبيل المثال، لنفترض أن لدينا مصفوفة 3×3 التالية:

مصفوفة 3×3 [[5,3,1]، [8,2,5]، [9,4,3]].

إنّ عملية التجميع، تمامًا مثل العملية الالتفافية، تُقسِّم هذه المصفوفة إلى شرائح ثم الشرائح التي تنفّذ العملية الالتفافية على خطوات. على سبيل المثال، لنفترض أن عملية التجميع تُقسم المصفوفة الالتفافية إلى شرائح 2×2 مع خطوة 1×1. وكما يوضِّح الرسم البياني التالي، تحدث أربع عمليات تجميع. تخيل أن كل عملية تجميع تختار القيمة القصوى للأربعة في تلك الشريحة:

مصفوفة الإدخال هي 3×3 بالقيم: [[5,3,1]، [8,2,5]، [9,4,3]].
          المصفوفة الفرعية العلوية 2×2 لمصفوفة الإدخال هي [[5,3] و[8,2]]، وبالتالي
 ينتج عن عملية التجميع في أعلى اليسار القيمة 8 (الحد الأقصى هو 5 و3 و8 و2). المصفوفة الفرعية أعلى اليمين 2×2 لمصفوفة الإدخال هي [[3,1]، [2,5]]، وبالتالي ينتج عن عملية التجميع في أعلى اليمين
 القيمة 5. المصفوفة الفرعية 2×2 أسفل اليسار لمصفوفة الإدخال هي [[8,2] و[9,4]]، وبالتالي ينتج عن عملية التجميع أسفل اليسار القيمة
 9. المصفوفة الفرعية أسفل اليمين 2×2 لمصفوفة الإدخال هي [[2,5] و[4,3]]، وبالتالي ينتج عن عملية التجميع أسفل اليمين القيمة
 5. باختصار، تُنتج عملية التجميع المصفوفة 2×2 [[8،5]، [9,5]].

ويساعد التجميع في فرض الثبات المترجم في مصفوفة الإدخال.

ويُعرف تجميع تطبيقات الرؤية بشكل رسمي باسم التجميع المكاني. تشير تطبيقات السلسلة الزمنية عادةً إلى التجميع باسم التجميع المؤقت. بشكل أقل رسمية، غالبًا ما يُطلق على التجميع اسم أخذ العينات أو تقليل العيّنات.

نموذج مدرَّب مسبقًا

#language
#image
#generativeAI

النماذج أو مكوّنات النماذج (مثل متجه تضمين) التي سبق أن تم تدريبها. في بعض الأحيان، ستدخل متّجهات تضمين مدرّبة مسبقًا في شبكة عصبية. وفي أحيان أخرى، سيعمل النموذج على تدريب متجهات التضمين نفسها بدلاً من الاعتماد على التضمينات المدرّبة مسبقًا.

يشير مصطلح نموذج لغوي مدرّب مسبقًا إلى نموذج لغوي كبير وخضع لتدريب مسبق.

التدريب المُسبَق

#language
#image
#generativeAI

يشير ذلك المصطلح إلى التدريب الأوّلي على نموذج معيّن على مجموعة بيانات كبيرة. بعض النماذج المدرَّبة مسبقًا هي نماذج عمالقة أحرجة ويجب تحسينها عادةً من خلال تدريب إضافي. على سبيل المثال، قد يدرّب خبراء تعلّم الآلة مسبقًا نموذجًا لغويًا كبيرًا على مجموعة بيانات نصية ضخمة، مثل جميع الصفحات باللغة الإنجليزية في ويكيبيديا. بعد التدريب المسبق، يمكن تحسين النموذج الناتج بشكل أكبر من خلال أي من الأساليب التالية:

R

الثبات الدوري

#image

في مشكلة تصنيف الصور، هي قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغير اتجاه الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد مضرب التنس سواء كان يشير لأعلى أو جانبًا أو لأسفل. لاحظ أن الثبات الدوران ليس مرغوبًا فيه دائمًا؛ على سبيل المثال، لا ينبغي تصنيف 9 المقلوب على أنه 9.

يمكنك أيضًا الاطّلاع على التغاير الترجمة وثبات الحجم.

S

الثبات الحجمي

#image

في مشكلة تصنيف الصور، هي قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغير حجم الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد ما إذا كانت القطّة تستهلك 2 ميغا بكسل أو 200 ألف بكسل. لاحظ أنه حتى أفضل خوارزميات تصنيف الصور لا تزال لديها حدود عملية على ثبات الحجم. على سبيل المثال، من غير المحتمل أن تصنف خوارزمية (أو بشرية) صورة قطة بشكل صحيح تستهلك 20 بكسل فقط.

يمكنك أيضًا الاطّلاع على الثبات المترجم والثبات الدوري.

التجميع المكاني

#image

يُرجى الاطّلاع على تجميع.

قفزة

#image

في العملية الالتفافية أو التجميع، تشير الدلتا في كل بُعد من السلسلة التالية من شرائح الإدخال. على سبيل المثال، توضح الرسوم المتحركة التالية خطوة (1،1) أثناء عملية التفافية. وبالتالي، تبدأ شريحة الإدخال التالية موضعًا واحدًا على يمين شريحة الإدخال السابقة. عندما تصل العملية إلى الحافة اليمنى، تكون الشريحة التالية في متناول يدك اليسرى لكن أسفلها موضع واحد.

مصفوفة إدخال 5×5 وفلتر التفافي 3×3. بما أنّ الخطوة
     هي (1,1)، سيتم تطبيق فلتر التفافي 9 مرات. وتقيّم الشريحة الالتفافية الأولى المصفوفة الفرعية 3×3 العلوية اليسرى لمصفوفة الإدخال. وتقيّم الشريحة الثانية المصفوفة الفرعية العليا الوسطى 3×3. تقيِّم الشريحة الالتفافية الثالثة المصفوفة الفرعية أعلى اليمين 3×3.  تقيِّم الشريحة الرابعة المصفوفة الفرعية 3×3 الوسطى اليسرى.
     تقيِّم الشريحة الخامسة المصفوفة الفرعية الوسطى 3×3. تقيِّم الشريحة السادسة المصفوفة الفرعية 3×3 في منتصف اليمين. تقيِّم الشريحة السابعة المصفوفة الفرعية أسفل اليسار 3×3.  تقيِّم الشريحة الثامنة المصفوفة الفرعية أسفل المنتصف 3×3. تقيِّم الشريحة التاسعة المصفوفة الفرعية أسفل اليمين 3×3.

يوضح المثال السابق خطوة ثنائية الأبعاد. وإذا كانت مصفوفة الإدخال ثلاثية الأبعاد، فستكون الخطوة ثلاثية الأبعاد أيضًا.

جمع عيّنات فرعية

#image

يُرجى الاطّلاع على تجميع.

T

درجة الحرارة

#language
#image
#generativeAI

يشير ذلك المصطلح إلى مَعلمة فائقة تتحكّم في درجة التوزيع العشوائي لمخرجات النموذج. تؤدي درجات الحرارة الأعلى إلى ناتج عشوائي أكثر، بينما تؤدي درجات الحرارة المنخفضة إلى مخرجات عشوائية أقل.

يعتمد اختيار أفضل درجة حرارة على التطبيق المحدد والخصائص المطلوبة لمخرجات النموذج. على سبيل المثال، من المحتمل أن ترفع درجة الحرارة عند إنشاء تطبيق ينشئ منتجًا إبداعيًا. بالمقابل، من المحتمل أن تخفض درجة الحرارة عند إنشاء نموذج يصنف الصور أو النص من أجل تحسين دقة النموذج واتساقه.

غالبًا ما تُستخدم درجة الحرارة مع softmax.

الثبات الانتقالي

#image

في مشكلة تصنيف الصور، هي قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغير موضع العناصر داخل الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد كلب، سواء كان في وسط الإطار أو في الطرف الأيسر من الإطار.

يمكنك أيضًا الاطّلاع على ثبات الحجم و ثبات الدوران.