النماذج اللغوية الكبيرة: ما هو النموذج اللغوي الكبير؟

تقنية أحدث، النماذج اللغوية الكبيرة (النماذج اللغوية الكبيرة) التنبؤ برمز مميز أو تسلسل من الرموز المميزة، وأحيانًا تساوي العديد من الفقرات الرموز المميزة المتنبأ بها. تذكر أن الرمز المميز يمكن أن يكون كلمة أو كلمة فرعية (مجموعة فرعية من كلمة) أو حتى حرف واحد. تقدّم النماذج اللغوية الكبيرة توقّعات أفضل بكثير من النماذج اللغوية بترميز ن غرام أو الشبكات العصبية المتكررة للأسباب التالية:

  • تتضمّن النماذج اللغوية الكبيرة مَعلمات أكثر بكثير من النماذج المتكررة.
  • تجمع النماذج اللغوية الكبيرة المزيد من السياق.

يتناول هذا القسم البنية الأكثر نجاحًا والأكثر استخدامًا على نطاق واسع. لإنشاء النماذج اللغوية الكبيرة: المحوِّل.

ما المحوِّل؟

المحوِّلات هي أحدث بنية متطوّرة لمجموعة متنوعة من الأجهزة. تطبيقات النماذج اللغوية، مثل الترجمة:

الشكل 1. المُدخل هو: أنا كلب جيد. نموذج يعتمد على المحولات
            يحوّل المترجم هذا الإدخال إلى الإخراج: Je suis un bon
            chien، وهي الجملة نفسها المترجمة إلى الفرنسية.
الشكل 1. يشير هذا المصطلح إلى تطبيق يستند إلى Transformer ويترجم من من الإنجليزية إلى الفرنسية.

 

تتألف المحوّلات الكاملة من برنامج ترميز وبرنامج لفك الترميز:

على سبيل المثال، في حالة الترجمة:

  • يعالج برنامج الترميز النص الذي تم إدخاله (مثلاً، جملة باللغة الإنجليزية) في بعض التمثيل المتوسط.
  • ويحول برنامج فك الترميز هذا التمثيل المتوسط إلى نص إخراج ( على سبيل المثال، الجملة الفرنسية المقابلة).
الشكل 2.  ويبدأ المترجم المستند إلى المحول باستخدام برنامج ترميز،
            تُنشئ تمثيلاً متوسطًا للغة الإنجليزية
            جملة. يحوّل برنامج فك الترميز هذا التمثيل المتوسط إلى
            جملة إخراج الفرنسية.
الشكل 2. يحتوي محوِّل التحويل الكامل على كل من برنامج ترميز وبرنامج لفك الترميز.

 

ما المقصود بالاهتمام الذاتي؟

ولتحسين السياق، تعتمد المحولات بشكل كبير على مفهوم يسمى الاهتمام الذاتي: بشكل فعال، نيابة عن كل رمز مميز للإدخال، يطلب الانتباه الذاتي السؤال التالي:

"ما مدى تأثير كل رمز مميز آخر للمدخل في تفسير هذا رمز مميز؟"

"الذات" في "الاهتمام الذاتي" يشير إلى تسلسل الإدخال. بعض الاهتمام علاقة الترجيح بين رموز الإدخال والرموز المميزة في تسلسل ناتج مثل ترجمة أو إلى رموز مميزة في تسلسل آخر. لكن الاهتمام بنفس فقط أهمية العلاقات بين الرموز في تسلسل الإدخال.

لتبسيط الأمور، افترض أن كل رمز مميز عبارة عن كلمة السياق عبارة عن جملة واحدة فقط. ضع في الاعتبار الجملة التالية:

The animal didn't cross the street because it was too tired.

تحتوي الجملة السابقة على إحدى عشرة كلمة. كل كلمة من الكلمات الاثنتي عشرة عبارة عن والانتباه إلى العشرة الأخرى، وتتساءل عن مقدار كل كلمة من تلك الكلمات العشر مهمًا بحد ذاته. على سبيل المثال، لاحِظ أنّ الجملة تحتوي على الضمير. هي. غالبًا ما تكون الضمائر غامضة. يشير الضمير الذي عادةً إلى اسم حديث أو عبارة اسمية، ولكن في مثال الجملة، أي اسم حديث هل يشير ذلك إلى الحيوان أم الشارع؟

تحدد آلية الانتباه الذاتي مدى صلة كل كلمة قريبة الضمير it. يوضح الشكل 3 النتائج - كلما زاد اللون الأزرق الخط، زاد أهمية هذه الكلمة للضمائر التي تشير إلى it وهذا يعني أنّ سمة الحيوان أكثر أهم من كلمة street في الضمير it

الشكل 3. مدى صلة كل كلمة من الكلمات الإحدى عشرة في الجملة:
            "لم يعبر الحيوان الشارع لأنه كان متعبًا جدًا"
            إلى الضمير "إت". كلمة "حيوان" الأكثر صلة
            الضمير "إت".
الشكل 3. الاهتمام الذاتي للضمير it. مِن المحوِّل: بنية جديدة للشبكة العصبونية فهم اللغة:

 

وعلى العكس، لنفترض أنّ الكلمة الأخيرة في الجملة قد تغيّرت على النحو التالي:

The animal didn't cross the street because it was too wide.

في هذه الجملة المنقحة، نأمل أن تقيّم الشارع برأيه أكثر صلة من كلمة animal بالضمير الأفضل it.

بعض آليات الانتباه الذاتي تكون ثنائية الاتجاه، ما يعني أنها أن تحسب درجات مدى الصلة بالرموز المميزة قبل وبعد كلمة حضر إليه. فعلى سبيل المثال، في الشكل 3، لاحظ أن الكلمات على جانبي يتم فحصها. إذًا، يمكن لآلية الانتباه الذاتي ثنائي الاتجاه جمع السياق من الكلمات على جانبي الكلمة التي يتم التركيز عليها. على النقيض من ذلك، آلية الانتباه الذاتي أحادي الاتجاه يمكنها فقط جمع السياق من الكلمات على جانب واحد من الكلمة التي يحضر إليها. الانتباه الذاتي ثنائي الاتجاه هو أن تكون مفيدة بشكل خاص لإنشاء تمثيلات للتسلسلات الكاملة، في حين أن التطبيقات التي تنشئ تسلسلات برمز مميّز واحد تتطلّب اتجاهًا أحاديًا والاهتمام الذاتي. ولهذا السبب، تستخدم برامج الترميز ميزة الانتباه الذاتي الثنائي الاتجاه بينما تستخدم برامج فك الترميز أحادية الاتجاه

ما المقصود بالانتباه الذاتي المتعدّد الرؤوس؟

تتكون كل طبقة من مستويات الانتباه الذاتي عادة من عدة الاهتمام الذاتي. ناتج الطبقة هو عملية حسابية (على سبيل المثال، المتوسط المرجح أو الضرب النقطي) لمخرجات مختلفة.

نظرًا لأنه يتم إعداد كل طبقة للاهتمام الذاتي إلى قيم عشوائية، فإن رؤوس مختلفة يمكننا من خلالها تعلم علاقات مختلفة بين كل كلمة يتم حضورها بجوار الكلمات. على سبيل المثال، طبقة الانتباه الذاتي الموضحة في الفقرة السابقة يركّز على تحديد اسم الضمير الذي أشار إليه. ومع ذلك، قد تتعلم طبقات أخرى للانتباه الذاتي مدى الصلة النحوية كل كلمة إلى كل كلمة أخرى، أو تعلم تفاعلات أخرى.

ما هو سبب كبر حجم المحوِّلات؟

تحتوي المحولات على مئات المليارات أو حتى تريليونات من المَعلمات: أوصت هذه الدورة بشكل عام بإنشاء نماذج ذات نماذج أصغر عدد المعاملات عن تلك التي بها عدد أكبر من المعاملات. ففي النهاية، أي نموذج يحتوي على عدد أقل من المعاملات يستخدم موارد أقل لتقديم تنبؤات من أي نموذج به عدد أكبر من المعاملات. مع ذلك، تشير الأبحاث إلى أن المحولات ذات عدد أكبر من المعاملات دائمًا ما تتفوق على المحولات بمعايير أقل.

ولكن كيف ينشئ النموذج اللغوي الكبير نصًا؟

لقد رأيت كيف يدرّب الباحثون النماذج اللغوية الكبيرة على التنبؤ بكلمة أو كلمتين مفقودتين غير معجب. بعد كل شيء، فإن التنبؤ بكلمة أو كلمتين هو في الأساس الإكمال التلقائي المدمجة في برامج النصوص والبريد الإلكتروني والتأليف المتنوعة. قد تتساءل كيف يمكن للنماذج اللغوية الكبيرة إنشاء جمل أو فقرات أو عن المواقع المنشأة بهدف عرض الإعلانات.

في الواقع، النماذج اللغوية الكبيرة هي في الأساس آليات للإكمال التلقائي يمكنها للتنبؤ بآلاف الرموز المميزة. على سبيل المثال، ضع في اعتبارك جملة متبوعة بجملة مقنَّعة:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

يمكن للنموذج اللغوي الكبير إنشاء احتمالات للجملة المقنَّعة، بما في ذلك:

الاحتمالية الكلمات
3.1% على سبيل المثال، يمكنه الجلوس والبقاء تمرير مؤشر الماوس فوقه.
2.9% على سبيل المثال، يعرف كيف يجلس والبقاء تمرير مؤشر الماوس فوقه.

إنّ النموذج اللغوي الكبير بدرجة كافية يمكن أن ينتج عنه احتمالات للفقرات وبالكامل والمقالات. يمكنك اعتبار أسئلة المستخدم المُرسَلة إلى النموذج اللغوي الكبير على أنّها جملة يليه قناع خيالي. على سبيل المثال:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

ينشئ النموذج اللغوي الكبير احتمالات لردود مختلفة محتملة.

وكمثال آخر، تم تدريب النموذج اللغوي الكبير على عدد هائل من الكلمات الرياضية المشكلات" إظهار إمكانية الاستدلال الرياضي المتطور. مع ذلك، إنّ هذه النماذج اللغوية الكبيرة تقتصر على إكمال طلب خاص بمشكلة كلمة بشكل تلقائي.

مزايا النماذج اللغوية الكبيرة

يمكن للنماذج اللغوية الكبيرة إنشاء نص واضح وسهل الفهم لمحتوى واسع مجموعة متنوعة من الجماهير المستهدفة. يمكن للنماذج اللغوية الكبيرة التنبؤ بالمهام التي التدريب بشكل صريح عليها. يدّعي بعض الباحثين أنّ النماذج اللغوية الكبيرة يمكنها أيضًا إنشاء توقعات للمدخلات التي لم يتم التدريب عليها بشكل صريح، ولكن دحض الباحثون هذا الادّعاء.

مشاكل النماذج اللغوية الكبيرة

تنطوي تدريب النموذج اللغوي الكبير على مشاكل عديدة، منها:

  • جمع مجموعة كبيرة من التدريب.
  • استهلاك عدة أشهر وموارد حسابية ضخمة الكهرباء.
  • حل تحديات التوازي.

يؤدي استخدام النماذج اللغوية الكبيرة لاستنتاج التوقّعات إلى حدوث المشاكل التالية:

  • النماذج اللغوية الكبيرة هلوسينات، مما يعني أن تنبؤاتها غالبًا ما تحتوي على أخطاء.
  • تستهلك النماذج اللغوية الكبيرة كميات هائلة من الموارد الحاسوبية والكهرباء. يؤدي عادةً تدريب النماذج اللغوية الكبيرة على مجموعات البيانات الأكبر حجمًا إلى تقليل مقدار الموارد المطلوبة للاستنتاج، على الرغم من أن التدريب الأكبر المجموعات تتطلب المزيد من الموارد التدريبية.
  • مثل جميع نماذج تعلُّم الآلة، يمكن أن تعرض النماذج اللغوية الكبيرة جميع أنواع الانحياز.

تمرين: التحقق من فهمك

لنفترض أن المحوّل قد تم تدريبه على مليار مستند، بما في ذلك آلاف المستندات التي تحتوي على مثال واحد على الأقل للكلمة فيل. أي من العبارات التالية ربما تكون صحيحة؟
أشجار الأكاسيا، التي تعد جزءًا مهمًا من نظام الفيل الغذائي، سوف تحصل تدريجيًا على درجة عالية للاهتمام الذاتي مع كلمة فيل.
نعم، وهذا من شأنه تمكين المحوّل من الإجابة عن الأسئلة حول النظام الغذائي للفيل.
سيربط المحوّل كلمة فيل بعبارات مختلفة التعبيرات الاصطلاحية التي تتضمّن كلمة فيل.
نعم، سيبدأ النظام في إرفاق درجات عالية من الاهتمام الذاتي بين كلمة فيل والكلمات الأخرى في عبارات اصطلاحية للأفيال.
سيتعلم المحول تدريجيًا تجاهل أي كلام ساخر أو استخدامات ساخرة لكلمة فيل في بيانات التدريب.
تم تدريب مجموعة كبيرة بما يكفي من المحولين على مجموعة واسعة مجموعة التدريب الماهر في التعرف على السخرية والفكاهة والسخرية. لذا، بدلاً من تجاهل السخرية، المحوِّل يتعلم منها.