عملية تعلُّم الآلة: تصنيف الصور

تقديم الشبكات العصبونية الكونفية

في هذا الإطار، شهدنا طفرةً في إنشاء نماذج لتصنيف الصور، فظهرنا أنّه يمكن استخدام الشبكة العصبونية التشويهية (CNN) لاستخراج التمثيلات المصوّرة العالية المستوى تدريجيًا. وبدلاً من المعالجة المسبقة للبيانات لاستخلاص الميزات، مثل الزخارف والأشكال، تعتمد خدمة CNN على بيانات البكسل الأولية للصور فقط، كإدخال و"تعلّم" وكيفية استخراج هذه الميزات، وبالتالي استنتاج العنصر الذي تشكله.

للبدء، تتلقّى CNN خريطة ميزات الإدخال: مصفوفة ثلاثية الأبعاد يتطابق فيها حجم أول بُعدَين مع طول الصور وعرضها بالبكسل. يكون حجم المكوّن الثالث هو 3 (يقابل القنوات الثلاث لصورة اللون: الأحمر والأخضر والأزرق). تتألّف شبكة CNN من حزمة من الوحدات، تجري كل منها ثلاث عمليات.

1. الالتفاف

يعمل الالتفاف على استخراج مربعات تعيين ميزات الإدخال، ويطبّق الفلاتر عليها لاحتساب الميزات الجديدة، أو إنشاء خريطة لميزة الناتج، أو الميزة المترابطة (التي قد تكون ذات حجم وعمق مختلفَين عن خريطة ميزات الإدخال). يتم تحديد الانحرافات من خلال مَعلمتين:

  • حجم المربّعات المستخرجة (عادةً 3 × 3 أو 5 × 5 بكسل).
  • عمق ربط ميزة الإخراج، والذي يتوافق مع عدد الفلاتر التي يتم تطبيقها.

خلال عملية الالتفاف، يتم تمرير الفلاتر (بحجم نفسه الذي يتناسب مع حجم المربّع) على شبكة ميزات المدخلات بشكل أفقي ورأسي، بمعدّل وحدة بكسل واحدة في كل مرة، ثم استخراج كل مربّع مقابل (يُرجى الاطّلاع على الشكل 3).

التفاف 3 × 3 على خريطة الميزات 4 × 4 الشكل 3. تم إنشاء عمق 3 × 3 من العمق 1 على خريطة عنصر الإدخال 5 × 5، بالإضافة إلى العمق 1. هناك تسعة مواقع جغرافية عرضية مقاس 3×3 يمكن استخراجها من خريطة 5x5، لذا يؤدي هذا الإحصاء إلى إنشاء خريطة إخراج 3x3.

بالنسبة إلى كل زوج من مربعات الفلاتر، تُجري CNN ضربًا على مستوى العناصر لمصفوفة الفلاتر ومصفوفة المربّعات، ثم تجمع جميع عناصر المصفوفة الناتجة للحصول على قيمة واحدة. ويتم بعد ذلك عرض كل قيمة من هذه القيم الناتجة لكل زوج من مربعات الفلاتر في مصفوفة الميزة المتجاورة (راجِع الشكلين 4a و4b).

خريطة بميزات 5x5 ومزيج 3x3 الشكل 4أ. يسار الصفحة: خريطة ميزات لإدخال 5 × 5 (العمق 1). على اليمين: إحصاء 3 × 3 (العمق 1).

الشكل 4-ب. يسار الصفحة: يتم إجراء الالتفاف 3 × 3 على خريطة ميزات الإدخال 5 × 5. يمين: الميزة الناتجة الناتجة. انقر على قيمة في خريطة ميزة الإخراج لمعرفة كيفية حسابها.

أثناء التدريب، تقدم قناة CNN &learn;learn;quot; القيم المثالية لمصفوفات الفلاتر التي تمكّنها من استخراج ميزات مفيدة (الزخارف والحواف والأشكال) من خريطة ميزات الإدخال. ومع زيادة عدد الفلاتر (عمق خريطة ميزات المخرجات) التي يتم تطبيقها على الإدخال، يزداد أيضًا عدد الميزات التي يمكن أن يستخرجها CNN. ومع ذلك، تتمثّل المفاضلة في أنّ الفلاتر تشكّل معظم الموارد التي تستهلكها شبكة CNN، لذا يزداد وقت التدريب مع إضافة المزيد من الفلاتر. علاوةً على ذلك، يوفّر كل فلتر تتم إضافته إلى الشبكة قيمة متزايدة أقل من الفلتر السابق، لذا يهدف المهندسون إلى إنشاء شبكات تستخدم الحد الأدنى من الفلاتر اللازمة لاستخراج الميزات اللازمة لتصنيف الصور بدقة.

2- وحدة معالجة البيانات

بعد كل عملية احتجاز، تُجري شبكة CNN تحويل وحدة خطية مُصحَّحة (RELU) إلى الميزة المتعاقبة، من أجل التعريف بالطابع الخطي. تعرض دالة ReLU \(F(x)=max(0,x)\)القيمة x لجميع قيم x &gt؛ و0، وتعرض 0 لجميع قيم x ≤ 0.

3- بلياردو

بعد أن تأتي محطة ReLU خطوة في المجمّع، تقلّل من خلالها شبكة CNN الميزة التي تم اختيارها (لتوفير الوقت في المعالجة)، ما يقلّل من عدد أبعاد خريطة الميزة، ويحافظ في الوقت نفسه على أهم معلومات الميزات. تُسمّى الخوارزمية الشائعة المستخدَمة في هذه العملية الحدّ الأقصى لتجميع البيانات.

تعمل استراتيجية الحد الأقصى للجمعات بطريقة مماثلة على الالتفاف. نمرّر مؤشر الماوس فوق خريطة الميزات ونستخرج المربعات من حجم محدد. بالنسبة إلى كل مربّع، يتم إخراج الحد الأقصى للقيمة على خريطة ميزة جديدة، ويتم تجاهل جميع القيم الأخرى. تعتمد عمليات الحد الأقصى لعملية التجميع على معيارَين:

  • حجم فلتر المطابقة القصوى (عادةً 2 × 2 بكسل)
  • التقدّم: المسافة، بالبكسل، لفصل كل مربّع مُستخرج. وعلى عكس المحاذاة، حيث يتم تمرير الفلاتر فوق وحدة بكسل الميزة حسب البكسل، في الحد الأقصى لتجميع البيانات، تحدّد الخطوة المواقع الجغرافية التي يتم فيها استخراج كل مربّع. بالنسبة إلى فلتر 2 × 2، تحدد سلسلة من 2 أن عملية التشغيل المجمّعة القصوى ستستخلص جميع مربعات 2 × 2 غير متداخلة من خريطة الميزة (انظر الشكل 5).

صورة متحركة لعملية تجميع الحد الأقصى عبر خريطة بميزات 4x4 مع فلتر 2×2 وخطوات
2

الشكل 5. لليسار: تم تحقيق الحد الأقصى لتجميع البيانات على خريطة الميزات 4x4 مع فلتر 2x2 وخطوات 2. يمين: مخرجات عملية التجميع القصوى. تجدر الإشارة إلى أن خريطة الميزات الناتجة أصبحت الآن بحجم 2x2، مع الحفاظ على الحد الأقصى للقيم من كل مربّع.

طبقات متصلة بالكامل

في نهاية الشبكة العصبونية الالتفافية، تكون هناك طبقة واحدة أو أكثر من الطبقات المتصلة تمامًا (عندما تكون هناك طبقتان متصلتان بالكامل،&ويتم ربط كل عُقدة في الطبقة الأولى بكل عُقدة في الطبقة الثانية). وتتمثل مهمتهم في إجراء التصنيف بناءً على الميزات التي تم استخراجها من الملفات. عادةً، تحتوي الطبقة النهائية المتصلة تمامًا على دالة تفعيل softmax، التي تعرض قيمة احتمالية من 0 إلى 1 لكل تصنيف من تصنيفات التصنيفات التي يحاول النموذج توقعها.

يوضح الشكل 6 البنية الشاملة للشبكة العصبونية التشوفية.

مخطّط شامل من الشبكة العصبونية التشويهية يُظهر إدخالاً ووحدتين لوحدة الالتحاق ومستويين متصلين بالكامل للتصنيف

الشكل 6. تحتوي شاشة CNN المعروضة هنا على وحدتَي التفاف (الملف + الاسترجاع + + تجميع) لاستخراج الميزات، وطبقتين متصلتين بالكامل للتصنيف. قد تحتوي شبكات CNN الأخرى على أعداد أكبر أو أصغر من الوحدات التكيفية، وطبقة موصولة بالكامل أو أقل. وغالبًا ما يختبر المهندسون الإعداد الذي يحقّق أفضل النتائج حسب نموذجهم.