تقنية أحدث، النماذج اللغوية الكبيرة (النماذج اللغوية الكبيرة) التنبؤ برمز مميز أو تسلسل من الرموز المميزة، وأحيانًا تساوي العديد من الفقرات الرموز المميزة المتنبأ بها. تذكر أن الرمز المميز يمكن أن يكون كلمة أو كلمة فرعية (مجموعة فرعية من كلمة) أو حتى حرف واحد. تقدّم النماذج اللغوية الكبيرة توقّعات أفضل بكثير من النماذج اللغوية بترميز ن غرام أو الشبكات العصبية المتكررة للأسباب التالية:
- تتضمّن النماذج اللغوية الكبيرة مَعلمات أكثر بكثير من النماذج المتكررة.
- تجمع النماذج اللغوية الكبيرة المزيد من السياق.
يتناول هذا القسم البنية الأكثر نجاحًا والأكثر استخدامًا على نطاق واسع. لإنشاء النماذج اللغوية الكبيرة: المحوِّل.
ما المحوِّل؟
المحوِّلات هي أحدث بنية متطوّرة لمجموعة متنوعة من الأجهزة. تطبيقات النماذج اللغوية، مثل الترجمة:
تتألف المحوّلات الكاملة من برنامج ترميز وبرنامج لفك الترميز:
- يُجري برنامج ترميز إحالة ناجحة إدخال نص في تمثيل متوسط. يُعدّ برنامج الترميز طريقة هائلة الشبكة العصبية.
- يُجري برنامج فك الترميز إحالة ناجحة هذا التمثيل المتوسط إلى نص مفيد. أداة فك الترميز هي أيضًا شبكة عصبية ضخمة.
على سبيل المثال، في حالة الترجمة:
- يعالج برنامج الترميز النص الذي تم إدخاله (مثلاً، جملة باللغة الإنجليزية) في بعض التمثيل المتوسط.
- ويحول برنامج فك الترميز هذا التمثيل المتوسط إلى نص إخراج ( على سبيل المثال، الجملة الفرنسية المقابلة).
ما المقصود بالاهتمام الذاتي؟
ولتحسين السياق، تعتمد المحولات بشكل كبير على مفهوم يسمى الاهتمام الذاتي: بشكل فعال، نيابة عن كل رمز مميز للإدخال، يطلب الانتباه الذاتي السؤال التالي:
"ما مدى تأثير كل رمز مميز آخر للمدخل في تفسير هذا رمز مميز؟"
"الذات" في "الاهتمام الذاتي" يشير إلى تسلسل الإدخال. بعض الاهتمام علاقة الترجيح بين رموز الإدخال والرموز المميزة في تسلسل ناتج مثل ترجمة أو إلى رموز مميزة في تسلسل آخر. لكن الاهتمام بنفس فقط أهمية العلاقات بين الرموز في تسلسل الإدخال.
لتبسيط الأمور، افترض أن كل رمز مميز عبارة عن كلمة السياق عبارة عن جملة واحدة فقط. ضع في الاعتبار الجملة التالية:
The animal didn't cross the street because it was too tired.
تحتوي الجملة السابقة على إحدى عشرة كلمة. كل كلمة من الكلمات الاثنتي عشرة عبارة عن والانتباه إلى العشرة الأخرى، وتتساءل عن مقدار كل كلمة من تلك الكلمات العشر مهمًا بحد ذاته. على سبيل المثال، لاحِظ أنّ الجملة تحتوي على الضمير. هي. غالبًا ما تكون الضمائر غامضة. يشير الضمير الذي عادةً إلى اسم حديث أو عبارة اسمية، ولكن في مثال الجملة، أي اسم حديث هل يشير ذلك إلى الحيوان أم الشارع؟
تحدد آلية الانتباه الذاتي مدى صلة كل كلمة قريبة الضمير it. يوضح الشكل 3 النتائج - كلما زاد اللون الأزرق الخط، زاد أهمية هذه الكلمة للضمائر التي تشير إلى it وهذا يعني أنّ سمة الحيوان أكثر أهم من كلمة street في الضمير it
وعلى العكس، لنفترض أنّ الكلمة الأخيرة في الجملة قد تغيّرت على النحو التالي:
The animal didn't cross the street because it was too wide.
في هذه الجملة المنقحة، نأمل أن تقيّم الشارع برأيه أكثر صلة من كلمة animal بالضمير الأفضل it.
بعض آليات الانتباه الذاتي تكون ثنائية الاتجاه، ما يعني أنها أن تحسب درجات مدى الصلة بالرموز المميزة قبل وبعد كلمة حضر إليه. فعلى سبيل المثال، في الشكل 3، لاحظ أن الكلمات على جانبي يتم فحصها. إذًا، يمكن لآلية الانتباه الذاتي ثنائي الاتجاه جمع السياق من الكلمات على جانبي الكلمة التي يتم التركيز عليها. على النقيض من ذلك، آلية الانتباه الذاتي أحادي الاتجاه يمكنها فقط جمع السياق من الكلمات على جانب واحد من الكلمة التي يحضر إليها. الانتباه الذاتي ثنائي الاتجاه هو أن تكون مفيدة بشكل خاص لإنشاء تمثيلات للتسلسلات الكاملة، في حين أن التطبيقات التي تنشئ تسلسلات برمز مميّز واحد تتطلّب اتجاهًا أحاديًا والاهتمام الذاتي. ولهذا السبب، تستخدم برامج الترميز ميزة الانتباه الذاتي الثنائي الاتجاه بينما تستخدم برامج فك الترميز أحادية الاتجاه
ما المقصود بالانتباه الذاتي المتعدّد الرؤوس؟
تتكون كل طبقة من مستويات الانتباه الذاتي عادة من عدة الاهتمام الذاتي. ناتج الطبقة هو عملية حسابية (على سبيل المثال، المتوسط المرجح أو الضرب النقطي) لمخرجات مختلفة.
نظرًا لأنه يتم إعداد كل طبقة للاهتمام الذاتي إلى قيم عشوائية، فإن رؤوس مختلفة يمكننا من خلالها تعلم علاقات مختلفة بين كل كلمة يتم حضورها بجوار الكلمات. على سبيل المثال، طبقة الانتباه الذاتي الموضحة في الفقرة السابقة يركّز على تحديد اسم الضمير الذي أشار إليه. ومع ذلك، قد تتعلم طبقات أخرى للانتباه الذاتي مدى الصلة النحوية كل كلمة إلى كل كلمة أخرى، أو تعلم تفاعلات أخرى.
ما هو سبب كبر حجم المحوِّلات؟
تحتوي المحولات على مئات المليارات أو حتى تريليونات من المَعلمات: أوصت هذه الدورة بشكل عام بإنشاء نماذج ذات نماذج أصغر عدد المعاملات عن تلك التي بها عدد أكبر من المعاملات. ففي النهاية، أي نموذج يحتوي على عدد أقل من المعاملات يستخدم موارد أقل لتقديم تنبؤات من أي نموذج به عدد أكبر من المعاملات. مع ذلك، تشير الأبحاث إلى أن المحولات ذات عدد أكبر من المعاملات دائمًا ما تتفوق على المحولات بمعايير أقل.
ولكن كيف ينشئ النموذج اللغوي الكبير نصًا؟
لقد رأيت كيف يدرّب الباحثون النماذج اللغوية الكبيرة على التنبؤ بكلمة أو كلمتين مفقودتين غير معجب. بعد كل شيء، فإن التنبؤ بكلمة أو كلمتين هو في الأساس الإكمال التلقائي المدمجة في برامج النصوص والبريد الإلكتروني والتأليف المتنوعة. قد تتساءل كيف يمكن للنماذج اللغوية الكبيرة إنشاء جمل أو فقرات أو عن المواقع المنشأة بهدف عرض الإعلانات.
في الواقع، النماذج اللغوية الكبيرة هي في الأساس آليات للإكمال التلقائي يمكنها للتنبؤ بآلاف الرموز المميزة. على سبيل المثال، ضع في اعتبارك جملة متبوعة بجملة مقنَّعة:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
يمكن للنموذج اللغوي الكبير إنشاء احتمالات للجملة المقنَّعة، بما في ذلك:
الاحتمالية | الكلمات |
---|---|
3.1% | على سبيل المثال، يمكنه الجلوس والبقاء تمرير مؤشر الماوس فوقه. |
2.9% | على سبيل المثال، يعرف كيف يجلس والبقاء تمرير مؤشر الماوس فوقه. |
إنّ النموذج اللغوي الكبير بدرجة كافية يمكن أن ينتج عنه احتمالات للفقرات وبالكامل والمقالات. يمكنك اعتبار أسئلة المستخدم المُرسَلة إلى النموذج اللغوي الكبير على أنّها جملة يليه قناع خيالي. على سبيل المثال:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
ينشئ النموذج اللغوي الكبير احتمالات لردود مختلفة محتملة.
وكمثال آخر، تم تدريب النموذج اللغوي الكبير على عدد هائل من الكلمات الرياضية المشكلات" إظهار إمكانية الاستدلال الرياضي المتطور. مع ذلك، إنّ هذه النماذج اللغوية الكبيرة تقتصر على إكمال طلب خاص بمشكلة كلمة بشكل تلقائي.
مزايا النماذج اللغوية الكبيرة
يمكن للنماذج اللغوية الكبيرة إنشاء نص واضح وسهل الفهم لمحتوى واسع مجموعة متنوعة من الجماهير المستهدفة. يمكن للنماذج اللغوية الكبيرة التنبؤ بالمهام التي التدريب بشكل صريح عليها. يدّعي بعض الباحثين أنّ النماذج اللغوية الكبيرة يمكنها أيضًا إنشاء توقعات للمدخلات التي لم يتم التدريب عليها بشكل صريح، ولكن دحض الباحثون هذا الادّعاء.
مشاكل النماذج اللغوية الكبيرة
تنطوي تدريب النموذج اللغوي الكبير على مشاكل عديدة، منها:
- جمع مجموعة كبيرة من التدريب.
- استهلاك عدة أشهر وموارد حسابية ضخمة الكهرباء.
- حل تحديات التوازي.
يؤدي استخدام النماذج اللغوية الكبيرة لاستنتاج التوقّعات إلى حدوث المشاكل التالية:
- النماذج اللغوية الكبيرة هلوسينات، مما يعني أن تنبؤاتها غالبًا ما تحتوي على أخطاء.
- تستهلك النماذج اللغوية الكبيرة كميات هائلة من الموارد الحاسوبية والكهرباء. يؤدي عادةً تدريب النماذج اللغوية الكبيرة على مجموعات البيانات الأكبر حجمًا إلى تقليل مقدار الموارد المطلوبة للاستنتاج، على الرغم من أن التدريب الأكبر المجموعات تتطلب المزيد من الموارد التدريبية.
- مثل جميع نماذج تعلُّم الآلة، يمكن أن تعرض النماذج اللغوية الكبيرة جميع أنواع الانحياز.