النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟

النماذج اللغوية الكبيرة (LLM): وهي تقنية أحدث، وتتوقّع رمزًا أو تسلسلاً من الرموز، وفي بعض الأحيان تتنبأ بالعديد من الفقرات من الرموز. تذكَّر أنّ العنصر النائب يمكن أن يكون كلمة أو كلمة فرعية (مجموعة فرعية من كلمة) أو حتى حرفًا واحدًا. تُقدّم النماذج اللغوية الكبيرة توقّعات أفضل بكثير مقارنةً بالنماذج اللغوية المستندة إلى وحدات الكلمات أو الشبكات العصبية المتكرّرة، وذلك للأسباب التالية:

  • تحتوي النماذج اللغوية الكبيرة على مَعلمات أكثر بكثير من النماذج المتكرّرة.
  • تجمع النماذج اللغوية الكبيرة قدرًا أكبر بكثير من السياق.

يقدّم هذا القسم البنية الأكثر نجاحًا واستخدامًا لإنشاء النماذج اللغوية الكبيرة: نموذج التحويل.

ما هو "المحوِّل"؟

تقدّم نماذج Transformers أحدث بنية لمجموعة كبيرة من تطبيقات النماذج اللغوية، مثل الترجمة:

الشكل 1. الإدخال هو: أنا كلب جيد. يحوّل مترجم
            المستنِد إلى نموذج "المحوِّل" هذه المدخلات إلى العبارة التالية: Je suis un bon
            chien، وهي الجملة نفسها مترجمة إلى الفرنسية.
الشكل 1. تطبيق مستند إلى Transformer يترجم من الإنجليزية إلى الفرنسية

 

تتكوّن المحوِّلات الكاملة من برنامج ترميز وبرنامج فك ترميز:

  • يحوّل برنامج الترميز نص الإدخال إلى تمثيل وسيط. برنامج الترميز هو شبكة عصبية ضخمة.
  • يحوِّل المفكِّر هذا التمثيل الوسيط إلى نص مفيد. إنّ أداة فك التشفير هي أيضًا شبكة عصبية ضخمة.

على سبيل المثال، في مترجم:

  • يعالج برنامج الترميز النص الذي يتم إدخاله (على سبيل المثال، جملة باللغة الإنجليزية) ويحوّله إلى تمثيل وسيط.
  • يحوّل برنامج فك التشفير هذا التمثيل الوسيط إلى نص الإخراج (مثلاً، الجملة الفرنسية المقابلة).
الشكل 2.  يبدأ المترجم المستنِد إلى نموذج Transformer بترميز،
            الذي ينشئ تمثيلًا وسيطًا لعبارة انجليزية. يحوّل أداة فك التشفير هذا التمثيل الوسيط إلى
            جملة ناتجة باللغة الفرنسية.
الشكل 2. يحتوي النموذج الكامل من نموذج Transformer على كلّ من أداة ترميز وأداة فك ترميز.

 

ما هو التركيز الذاتي؟

لتحسين السياق، تعتمد نماذج Transformers بشكل كبير على مفهوم يُعرف باسم التركيز الذاتي. بشكلٍ فعال، يطرح النموذج الذاتي للانتباه، نيابةً عن كل رمز إدخال، السؤال التالي:

"ما مدى تأثير كل رمز مميّز آخر من الإدخال في تفسير هذا الرمز المميّز؟"

تشير كلمة "الذات" في "الانتباه الذاتي" إلى تسلسل الإدخال. تُعطي بعض آليات معالجة الإلهاء أهمية أكبر لعلاقات الرموز في الإدخال مع الرموز في تسلسل الإخراج، مثل ترجمة أو رموز في تسلسل آخر. أمّا الانتباه الذاتي، فيمنح فقط أهمية للعلاقات بين الرموز في تسلسل الإدخال.

لتبسيط الأمور، نفترض أنّ كل رمز تعبيري هو كلمة وأنّ السياق الكامل هو عبارة واحدة فقط. فكِّر في الجملة التالية:

The animal didn't cross the street because it was too tired.

تحتوي الجملة السابقة على إحدى عشرة كلمة. تُركّز كل كلمة من الكلمات الأحد عشر على الكلمات العشر الأخرى، وتتساءل عن مدى أهمية كل كلمة من هذه الكلمات العشر بالنسبة إليها. على سبيل المثال، لاحظ أنّ الجملة تحتوي على الضمير it. غالبًا ما تكون الضمائر غامضة. يشير الضمير it عادةً إلى اسم أو عبارة اسمية حديثة، ولكن في مثال الجملة، ما هو الاسم الحديث الذي يشير إليه it، الحيوان أم الشارع؟

تحدّد آلية الانتباه الذاتي مدى صلة كل كلمة قريبة بالضمير. يعرض الشكل 3 النتائج، وكلما كان الخط أكثر زرقاء، زادت أهمية هذه الكلمة للضمير it. وهذا يعني أنّ الحيوان هو أكثر أهمية من الشارع بالنسبة إلى الضمير هو.

الشكل 3. مدى صلة كلّ كلمة من الكلمات الأحد عشر في الجملة التالية:
            "لم يعبر الحيوان الشارع لأنّه كان مرهقًا جدًا"
            بضمّير "هو" كلمة "حيوان" هي الأكثر صلةً
            بضمّير "هو".
الشكل 3. الانتباه الذاتي للضمير it من مقالة Transformer: A Novel Neural Network Architecture for Language Understanding.

 

في المقابل، لنفترض أنّ الكلمة الأخيرة في الجملة تغيّرت على النحو التالي:

The animal didn't cross the street because it was too wide.

في هذه الجملة المعدَّلة، من المرجّح أن يصنّف التركيز الذاتي الشارع على أنّه أكثر صلةً بالضمير هو من الحيوان.

بعض آليات الانتباه الذاتي ثنائية الاتجاه، ما يعني أنّها تُحتسب نتائج الصلة للرموز التي تسبق وتليها الكلمة التي يتم التركيز عليها. على سبيل المثال، في الشكل 3، لاحظ أنّه يتم فحص الكلمات على جانبَي it. وبالتالي، يمكن لآلية الانتباه الذاتي الثنائي الاتجاه جمع السياق من الكلمات على جانبي الكلمة التي يتم الانتباه إليها. في المقابل، لا يمكن لآلية التركيز الذاتي الاتجاهي جمع السياق إلا من الكلمات على جانب واحد من الكلمة التي يتم التركيز عليها. إنّ الانتباه الذاتي الثنائي الاتجاه مفعّل بشكل خاص لإنشاء تمثيلات للسلسلات الكاملة، في حين أنّ التطبيقات التي تنشئ سلاسل رمزًا تلو الآخر تتطلّب ميزة الانتباه الذاتي أحادي الاتجاه. لهذا السبب، تستخدِم برامج الترميز الانتباه الذاتي الثنائي الاتجاه، بينما تستخدِم برامج الترميز العكسي الانتباه الذاتي أحادي الاتجاه.

ما المقصود بالانتباه الذاتي المتعدّد الرؤوس؟

تتألف كل طبقة من طبقات الانتباه الذاتي عادةً من عدة رؤوس انتباه ذاتي. ناتج الطبقة هو عملية رياضية (مثل المتوسط المرجح أو حاصل ضرب نقطي) لناتج الرؤوس المختلفة.

بما أنّه يتمّ إعداد كلّ طبقة من طبقات الانتباه الذاتي باستخدام قيم عشوائية، يمكن للرؤوس المختلفة التعرّف على علاقات مختلفة بين كلّ كلمة يتمّ الانتباه إليها والكلمات المجاورة لها. على سبيل المثال، ركّزت طبقة الانتباه الذاتي الموضّحة في القسم السابق على تحديد الاسم الذي يشير إليه الضمير it. ومع ذلك، قد تتعرّف طبقات الانتباه الذاتي الأخرى على الصلة النحوية بين كل كلمة والكلمات الأخرى، أو قد تتعرّف على تفاعلات أخرى.

لماذا تكون محوِّلات الجهد الكهربائية كبيرة جدًا؟

تحتوي المحوِّلات على مئات مليارات أو حتى تريليونات مَعلمات. وقد أوصت هذه الدورة التدريبية بشكل عام بإنشاء نماذج تحتوي على عددٍ أقل من المَعلمات بدلاً من تلك التي تحتوي على عددٍ أكبر من المَعلمات. بعد كل شيء، يستخدم النموذج الذي يتضمّن عددًا أقل من المَعلمات موارد أقل للقيام بالتوقّعات مقارنةً بالنموذج الذي يتضمّن عددًا أكبر من المَعلمات. ومع ذلك، تُظهر الأبحاث أنّ النماذج المحوِّلة التي تحتوي على المزيد من المَعلمات تحقّق باستمرار أداءً أفضل من النماذج المحوِّلة التي تحتوي على عدد أقل من المَعلمات.

ولكن كيف تنشئ النماذج اللغوية الكبيرة النصوص؟

لقد شاهدت كيف يدرب الباحثون النماذج اللغوية الكبيرة لتوقّع كلمة أو كلمتين مفقودتين، وقد لا ينال ذلك إعجابك. بعد كل شيء، فإنّ توقّع كلمة أو كلمتين هو في الأساس ميزة الإكمال التلقائي المضمّنة في برامج النصوص والرسائل الإلكترونية وبرامج التأليف المختلفة. قد تتساءل كيف يمكن للنماذج اللغوية الكبيرة إنشاء جمل أو فقرات أو قصائد هايكو عن المراجحة.

في الواقع، تُعدّ النماذج اللغوية الكبيرة آليات إكمال تلقائي يمكنها توقّع (إكمال) آلاف الرموز المميّزة تلقائيًا. على سبيل المثال، فكِّر في جملة تليها جملة تم حجبها:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

يمكن أن تُنشئ نموذج اللغة الكبيرة احتمالات للجملة المحجوبة، بما في ذلك:

الاحتمالية الكلمات
‫3.1% على سبيل المثال، يمكنه الجلوس والبقاء في مكانه والتدحّر.
2.9% على سبيل المثال، يعرف الكلب كيفية الجلوس والبقاء في مكانه واللف.

يمكن لنموذج لغوي كبير بما يكفي إنشاء احتمالات للفقرات ومقالات كاملة. يمكنك اعتبار أسئلة المستخدم التي يطرحها على نموذج اللغة الكبيرة على أنّها الجملة "المُعطاة" يليها قناع وهمي. على سبيل المثال:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

يُنشئ النموذج اللغوي الكبير احتمالات لردود مختلفة محتملة.

في مثال آخر، يمكن أن تبدو نموذج لغوي كبير تم تدريبه على عدد ضخم من "المسائل الحسابية اللغوية" وكأنه يجري استدلالاً رياضيًا معقّدًا. ومع ذلك، فإنّ هذه النماذج اللغوية الكبيرة هي في الأساس مجرد إكمال تلقائي لطلب مسألة لغوية.

مزايا شهادات LLM

يمكن للنمذجة اللغوية الكبيرة إنشاء نص واضح وسهل الفهم لمجموعة واسعة من شرائح الجمهور المستهدَفة. يمكن للنماذج اللغوية الكبيرة إجراء توقّعات بشأن المهام التي تم تدريبها عليها بشكلٍ صريح. يدّعي بعض الباحثين أنّ النماذج اللغوية الكبيرة يمكنها أيضًا تقديم توقّعات بشأن إدخال لم يتم تدريبها عليه صراحةً، ولكن ينكر باحثون آخرون هذا الادعاء.

المشاكل المتعلقة بالنماذج اللغوية الكبيرة

يتضمن تدريب LLM العديد من المشاكل، بما في ذلك:

  • جمع مجموعة تدريبية ضخمة
  • تستهلك هذه العملية عدة أشهر وموارد حسابية هائلة و كهرباء.
  • حلّ تحديات التوازي

يؤدي استخدام النماذج اللغوية الكبيرة لاستنتاج التوقّعات إلى حدوث المشاكل التالية:

  • تُجري النماذج اللغوية الكبيرة أوهامًا، ما يعني أنّ توقّعاتها غالبًا ما تحتوي على أخطاء.
  • تستهلك النماذج اللغوية الكبيرة كميات هائلة من موارد الحوسبة والكهرباء. يؤدي تدريب النماذج اللغوية الكبيرة على مجموعات بيانات أكبر عادةً إلى تقليل مقدار الموارد المطلوبة للاستنتاج، على الرغم من أنّ مجموعات التدريب الأكبر تتطلب المزيد من موارد التدريب.
  • مثل جميع نماذج الذكاء الاصطناعي، يمكن أن تُظهر نماذج اللغة الكبيرة كل أنواع الانحيازات.

تمرين: التحقّق من فهمك

لنفترض أنّه تم تدريب نموذج Transformer على مليار مستند، بما في ذلك آلاف المستندات التي تحتوي على مثيل واحد على الأقل من الكلمة فيل. أيّ من العبارات التالية صحيحة على الأرجح؟
أشجار الأكاسيا، التي تشكّل جزءًا مهمًا من النظام الغذائي للفيل، ستبدأ في اكتساب تدريجيًا نتيجة عالية في التركيز الذاتي مع الكلمة الفيل.
نعم، وسيتيح ذلك لنموذج Transformer الإجابة عن أسئلة حول غذاء الفيل.
سيربط نموذج Transformer كلمة فيل بالعديد من العبارة التي تحتوي على كلمة فيل.
نعم، سيبدأ النظام في ربط نتائج عالية للتركيز الذاتي بين كلمة الفيل والكلمات الأخرى في عبارات الفيل.
سيتعلّم النموذج تدريجيًا تجاهل أي استخدامات ساخرة أو ساخرة لكلمة فيل في بيانات التدريب.
إنّ نماذج "التحويل" الكبيرة بما يكفي والمدرَّبة على مجموعة تدريبية واسعة بما يكفي تصبح ماهرة جدًا في التعرّف على السخرية والفكاهة والتهكم. لذلك، بدلاً من تجاهل السخرية والسخرية اللاذعة، يتعلّم Transformer منهما.