النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟

النماذج اللغوية الكبيرة (LLM): وهي تقنية أحدث، تهدف إلى توقّع رمز أو تسلسل من الرموز، وفي بعض الأحيان، تتنبأ بالعديد من الفقرات التي تتضمّن رموزاً متوقّعة. تذكَّر أنّ الرمز المميّز يمكن أن يكون كلمة أو كلمة فرعية (مجموعة فرعية من كلمة) أو حتى حرفًا واحدًا. تُقدّم النماذج اللغوية الكبيرة توقّعات أفضل بكثير مقارنةً بالنماذج اللغوية المستندة إلى وحدات النيّنات أو الشبكات العصبية المتكرّرة، وذلك للأسباب التالية:

  • تحتوي النماذج اللغوية الكبيرة على مَعلمات أكثر بكثير من النماذج المتكرّرة.
  • تجمع النماذج اللغوية الكبيرة قدرًا أكبر بكثير من السياق.

يقدّم هذا القسم البنية الأكثر نجاحًا واستخدامًا لإنشاء النماذج اللغوية الكبيرة: نموذج التحويل.

ما هو "المحوِّل"؟

تقدّم نماذج Transformers أحدث بنية لمجموعة كبيرة من تطبيقات النماذج اللغوية، مثل الترجمة:

الشكل 1. الإدخال هو: أنا كلب جيد. يحوّل مترجم
            المستنِد إلى نموذج "المحوِّل" هذه المدخلات إلى العبارة التالية: Je suis un bon
            chien، وهي الجملة نفسها مترجمة إلى الفرنسية.
الشكل 1. تطبيق مستند إلى Transformer يترجم من الإنجليزية إلى الفرنسية

 

تتكوّن المحوِّلات الكاملة من برنامج ترميز وبرنامج فك ترميز:

على سبيل المثال، في حالة الترجمة:

  • يعالج برنامج الترميز النص الذي يتم إدخاله (على سبيل المثال، جملة باللغة الإنجليزية) ويحوّله إلى تمثيل وسيط.
  • يحوّل برنامج فك التشفير هذا التمثيل الوسيط إلى نص الإخراج (مثلاً، الجملة الفرنسية المقابلة).
الشكل 2.  يبدأ المترجم المستنِد إلى نموذج Transformer بترميز،
            الذي ينشئ تمثيلًا وسيطًا لعبارة انجليزية. يحوّل أداة فك التشفير هذا التمثيل الوسيط إلى
            جملة ناتجة باللغة الفرنسية.
الشكل 2. يحتوي محوِّل التحويل الكامل على كل من برنامج ترميز وبرنامج لفك الترميز.

 

ما هي ميزة "التركيز الذاتي"؟

لتحسين السياق، تعتمد نماذج Transformers بشكل كبير على مفهوم يُعرف باسم التركيز الذاتي. بشكلٍ فعال، يطرح النموذج الذاتي للانتباه، نيابةً عن كل رمز إدخال، السؤال التالي:

"ما مدى تأثير كل رمز مميّز آخر من الإدخال في تفسير هذا الرمز المميّز؟"

تشير كلمة "الذات" في "التركيز على الذات" إلى تسلسل الإدخال. تُعطي بعض آليات التجميع بالاستناد إلى الانتباه وزنًا لعلاقات الرموز في الإدخال مع الرموز في تسلسل الإخراج، مثل ترجمة أو رموز في تسلسل آخر. لكن الانتباه الذاتي لا تُرجي إلا أهمية العلاقات بين الرموز المميزة في تسلسل الإدخال.

لتبسيط الأمور، افترض أن كل رمز مميز عبارة عن كلمة والسياق الكامل هو مجرد جملة واحدة. فكِّر في الجملة التالية:

The animal didn't cross the street because it was too tired.

تحتوي الجملة السابقة على إحدى عشرة كلمة. تُركّز كل كلمة من الكلمات الأحد عشر على الكلمات العشر الأخرى، وتتساءل عن مدى أهمية كل كلمة من هذه الكلمات العشر بالنسبة إليها. على سبيل المثال، لاحِظ أنّ الجملة تحتوي على الضمير it. غالبًا ما تكون الضمائر غامضة. يشير الضمير it عادةً إلى اسم أو عبارة جديدة، ولكن في مثال الجملة، ما هو الاسم الأخير الذي يشير إليه الاسم، أي الحيوان أم الشارع؟

تحدّد آلية الانتباه الذاتي مدى صلة كل كلمة قريبة بعبارة الضمير it. يعرض الشكل 3 النتائج.كلما زاد لون السطر، كلما كانت الكلمة أكثر أهمية للضمير it وهذا يعني أنّ الحيوان هو أكثر أهمية من الشارع بالنسبة إلى الضمير هو.

الشكل 3. مدى صلة كلّ كلمة من الكلمات الأحد عشر في الجملة:
            "لم يعبر الحيوان الشارع لأنّه كان مرهقًا جدًا"
            بضمّير "هو" إنّ كلمة "حيوان" هي الأكثر صلةً
            بالضمير الذي يشبه الضمير.
الشكل 3. الانتباه الذاتي للضمير it من مقالة Transformer: A Novel Neural Network Architecture for Language Understanding.

 

في المقابل، لنفترض أنّ الكلمة الأخيرة في الجملة تغيّرت على النحو التالي:

The animal didn't cross the street because it was too wide.

في هذا الجملة المعدَّلة، من المرجّح أن يصنّف الانتباه الذاتي الشارع على أنّه أكثر صلةً بالضمير هو من الحيوان.

بعض آليات الانتباه الذاتي ثنائية الاتجاه، ما يعني أنّها تحتسب نتائج الصلة للرموز التي تسبق وتليها الكلمة التي يتم التركيز عليها. على سبيل المثال، في الشكل 3، لاحظ أنّه يتم فحص الكلمات على جانبَي it. وبالتالي، يمكن لآلية الانتباه الذاتي الثنائي الاتجاه جمع السياق من الكلمات على جانبي الكلمة التي يتم الانتباه إليها. في المقابل، لا يمكن لآلية التركيز الذاتي الاتجاهي جمع السياق إلا من الكلمات على جانب واحد من الكلمة التي يتم التركيز عليها. إنّ الانتباه الذاتي الثنائي الاتجاه مفعّل بشكل خاص لإنشاء تمثيلات للسلسلات الكاملة، في حين أنّ التطبيقات التي تنشئ سلاسل رمزًا تلو الآخر تتطلّب ميزة الانتباه الذاتي أحادي الاتجاه. لهذا السبب، تستخدِم برامج الترميز الانتباه الذاتي الثنائي الاتجاه، بينما تستخدِم برامج الترميز العكسي الانتباه الذاتي أحادي الاتجاه.

ما المقصود بالانتباه الذاتي المتعدّد الرؤوس؟

تتكوّن كل طبقة للاهتمام الذاتي عادةً من عدة رؤوس للانتباه الذاتي. ناتج الطبقة هو عملية حسابية (على سبيل المثال، المتوسط المرجح أو الضرب النقطي) لمخرجات الرؤوس المختلفة.

بما أنّه يتمّ إعداد كلّ طبقة من طبقات الانتباه الذاتي باستخدام قيم عشوائية، يمكن للرؤوس المختلفة التعرّف على علاقات مختلفة بين كلّ كلمة يتمّ الانتباه إليها والكلمات المجاورة لها. على سبيل المثال، ركّزت طبقة الانتباه الذاتي الموضّحة في القسم السابق على تحديد الاسم الذي يشير إليه الضمير it. ومع ذلك، قد تتعرّف طبقات الانتباه الذاتي الأخرى على الصلة النحوية بين كل كلمة والكلمات الأخرى، أو قد تتعرّف على تفاعلات أخرى.

لماذا تكون ملفات Transformers كبيرة جدًا؟

تحتوي المحوِّلات على مئات مليارات أو حتى تريليونات المَعلمات. وقد أوصت هذه الدورة التدريبية بشكل عام بإنشاء نماذج تحتوي على عدد أقل من المَعلمات بدلاً من تلك التي تحتوي على عدد أكبر من المَعلمات. بعد كل شيء، يستخدم النموذج الذي يتضمّن عددًا أقل من المَعلمات موارد أقل للقيام بالتوقّعات مقارنةً بالنموذج الذي يتضمّن عددًا أكبر من المَعلمات. ومع ذلك، تُظهر الأبحاث أنّ أدوات التحويل التي تحتوي على المزيد من المَعلمات تحقّق باستمرار أداءً أفضل من أدوات التحويل التي تحتوي على عدد أقل من المَعلمات.

ولكن كيف تنشئ النماذج اللغوية الكبيرة النصوص؟

لقد شاهدت كيف يدرب الباحثون النماذج اللغوية الكبيرة لتوقّع كلمة أو كلمتين مفقودتين، وقد لا ينال ذلك إعجابك. بعد كل شيء، فإنّ توقّع كلمة أو كلمتين هو في الأساس ميزة الإكمال التلقائي المضمّنة في برامج النصوص والرسائل الإلكترونية وبرامج التأليف المختلفة. قد تتساءل كيف يمكن للنماذج اللغوية الكبيرة إنشاء جمل أو فقرات أو قصائد هايكو عن المراجحة.

في الواقع، النماذج اللغوية الكبيرة هي في الأساس آليات للإكمال التلقائي يمكنها التنبؤ تلقائيًا بآلاف الرموز المميزة (مكتملة). على سبيل المثال، فكِّر في جملة تليها جملة تم حجبها:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

يمكن أن تُنشئ نموذج اللغة الكبيرة احتمالات للجملة المحجوبة، بما في ذلك:

الاحتمالية الكلمات
‫3.1% على سبيل المثال، يمكنه الجلوس والبقاء والالتفاف.
2.9% على سبيل المثال، يعرف الكلب كيفية الجلوس والبقاء في مكانه واللف.

يمكن لنموذج لغوي كبير بما يكفي إنشاء احتمالات للفقرات ومقالات كاملة. يمكنك اعتبار أسئلة المستخدم على النموذج اللغوي الكبير على أنّها جملة "مُعطاة" متبوعة بقناع خيالي. على سبيل المثال:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

ينشئ النموذج اللغوي الكبير احتمالات لردود مختلفة محتملة.

كمثال آخر، يُظهر النموذج اللغوي الكبير الذي تم تدريبه على عدد هائل من "المسائل الكلامية" الرياضية كيفية الاستنتاج الرياضي المتطوّر. ومع ذلك، فإنّ هذه النماذج اللغوية الكبيرة هي في الأساس مجرد إكمال تلقائي لطلب مسألة لغوية.

مزايا شهادات LLM

يمكن للنمذجة اللغوية الكبيرة إنشاء نص واضح وسهل الفهم لمجموعة واسعة من شرائح الجمهور المستهدَفة. يمكن للنماذج اللغوية الكبيرة التنبؤ بالمهام التي تم تدريبها بشكل صريح عليها. يدّعي بعض الباحثين أنّ النماذج اللغوية الكبيرة يمكنها أيضًا إجراء توقّعات بشأن الإدخالات التي لم يتم تدريبها بشكل صريح عليها، إلا أنّ باحثين آخرين دحضوا هذا الادّعاء.

المشاكل المتعلقة بالنماذج اللغوية الكبيرة

تنطوي تدريب النموذج اللغوي الكبير على مشاكل عديدة، منها:

  • جمع مجموعة تدريبية ضخمة
  • تستهلك هذه العملية عدة أشهر وموارد حسابية هائلة و كهرباء.
  • حلّ تحديات التوازي

يؤدي استخدام النماذج اللغوية الكبيرة لاستنتاج التوقّعات إلى حدوث المشاكل التالية:

  • تُجري النماذج اللغوية الكبيرة أوهامًا، ما يعني أنّ توقّعاتها غالبًا ما تحتوي على أخطاء.
  • تستهلك النماذج اللغوية الكبيرة كميات هائلة من الموارد الحاسوبية والكهرباء. يؤدي تدريب النماذج اللغوية الكبيرة على مجموعات بيانات أكبر عادةً إلى تقليل مقدار الموارد المطلوبة للاستنتاج، على الرغم من أنّ مجموعات التدريب الأكبر تتطلب المزيد من موارد التدريب.
  • مثل جميع نماذج الذكاء الاصطناعي، يمكن أن تُظهر نماذج اللغة الكبيرة كل أنواع الانحيازات.

تمرين: التحقّق من فهمك

لنفترض أنّه تم تدريب نموذج Transformer على مليار مستند، بما في ذلك آلاف المستندات التي تحتوي على مثيل واحد على الأقل من الكلمة فيل. أيّ من العبارات التالية صحيحة على الأرجح؟
أشجار الأكاسيا، التي تشكّل جزءًا مهمًا من النظام الغذائي للفيل، ستبدأ في اكتساب تدريجيًا نتيجة عالية في ميزة "التركيز على المحتوى" عند استخدام الكلمة فيل.
نعم، وسيتيح ذلك لنموذج Transformer الإجابة عن أسئلة حول نظام غذائي للفيل.
سيربط المحوّل كلمة فيل بمصطلحات مختلفة تحتوي على الكلمة فيل.
نعم، سيبدأ النظام في ربط نتائج عالية للتركيز الذاتي بين كلمة الفيل والكلمات الأخرى في عبارات الفيل.
سيتعلّم النموذج تدريجيًا تجاهل أي استخدامات ساخرة أو ساخرة لكلمة فيل في بيانات التدريب.
فقد تم تدريب مجموعة كبيرة بما يكفي من المحولات على مجموعة تدريب واسعة النطاق، ما زال بارعًا في التعرّف على السخرية والفكاهة والسخرية. وبالتالي، بدلاً من تجاهل السخرية، فإن المحوّل يتعلّم منها.