مقدّمة عن نماذج اللغات الكبيرة

هل تستخدم النماذج اللغوية أم النماذج اللغوية الكبيرة؟ يمكنك الاطّلاع على المراجع أدناه.

ما المقصود بنموذج اللغة؟

النموذج اللغوي هو نموذج لتعلّم الآلة يهدف إلى توقّع لغة معقولة وإعدادها. والإكمال التلقائي هو نموذج لغة مثلاً.

وتعمل هذه النماذج عن طريق تقدير احتمالية الرمز المميّز أو تسلسل الرموز المميّزة التي تحدث ضمن سلسلة من الرموز المميّزة الأطول. يُرجى مراعاة الجملة التالية:

When I hear rain on my roof, I _______ in my kitchen.

إذا افترضت أنّ الرمز المميّز هو كلمة، يحدّد نموذج اللغة احتمالات الكلمات أو تسلسلات الكلمات المختلفة لاستبدال الشرطة السفلية. على سبيل المثال، قد يحدد نموذج اللغة الاحتمالات التالية:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

يمكن أن يكون "تسلسل الرموز المميّزة" جملة كاملة أو سلسلة من الجُمل. وهذا يعني أن نموذج اللغة قد يحتسب احتمالية الجمل الكاملة أو أجزاء مختلفة من النص.

إن تقدير احتمالية ما يلي في التسلسل أمر مفيد لجميع أنواع الأمور: على سبيل المثال، إنشاء النص وترجمة اللغات والإجابة عن الأسئلة.

ما المقصود بنموذج اللغة الكبير؟

يُعدّ وضع نماذج للغة إنسانية على نطاق واسع مجهودًا كبيرًا ومعقدًا في الموارد. لقد استمر مسار الوصول إلى الإمكانيات الحالية لنماذج اللغة ونماذج اللغات الكبيرة على مدى عقود.

عندما يتم بناء النماذج بحجم أكبر وأكبر، يزداد تعقيدها وكفاءتها. يمكن لنماذج اللغة المبكرة توقع احتمالية كلمة واحدة، ويمكن أن تتوقّع نماذج اللغات الحديثة الكبيرة أيضًا احتمالية الجُمل أو الفقرات أو حتى المستندات بأكملها.

لقد زاد حجم وإمكانات نماذج اللغات على مدار السنوات القليلة الماضية بسبب تطوّر ذاكرة الكمبيوتر وحجم مجموعة البيانات وزيادة الطاقة، فضلاً عن تطوير أساليب أكثر فعالية لوضع تسلسلات نصية أطول.

ما هو الحجم الكبير؟

التعريف ضبابي، ولكن تم استخدام التصنيف "كبير" لوصف BERT (مع معلَمات 110 مليون) بالإضافة إلى PaLM 2 (حتى 340 مليار معلّمة).

المعلّمات هي الأوزان التي تعلّمها النموذج أثناء التدريب، ويتم استخدامها لتوقّع الرمز المميّز التالي في التسلسل. يمكن أن تشير القيمة "كبيرة" إلى عدد المعلَمات في النموذج، أو أحيانًا عدد الكلمات في مجموعة البيانات.

أدوات تحويل

كان التطور الرئيسي في تصميم النماذج اللغوية هو مقدمة في عام 2017 للمنشئين، وهي عبارة عن بنية مصمّمة حول فكرة جذب الانتباه. وقد ساعد ذلك في معالجة التسلسلات الأطول من خلال التركيز على الجزء الأكثر أهمية من الإدخال، وحلّ مشاكل الذاكرة التي حدثت في النماذج السابقة.

المحولات هي البنية الحديثة لمجموعة كبيرة من تطبيقات النماذج اللغوية، مثل المترجمين.

إذا كان الإدخال هو "أنا كلب جيد".، يحوّل المترجم الذي يعتمد على المحوّل هذا الإدخال إلى الإخراج "Je suis un bon chien".، وهي الجملة نفسها المترجَمة إلى الفرنسية.

تحوِّل المحوِّلات الكاملة برنامج ترميز و برنامج فك ترميز. يحوّل برنامج الترميز نص الإدخال إلى تمثيل متوسط، ويُحوّل برنامج فك الترميز هذا الوسيط إلى نص مفيد.

الاهتمام الذاتي

تعتمد المحولات بشكل كبير على مفهوم يُسمى بالانتباه. ويشير الجزء الذاتي من الاهتمام الذاتي إلى التركيز "الذاتي" لكل رمز مميّز. وبشكل فعّال، نيابةً عن كل رمز مميّز للإدخال، يطرح السؤال التالي: "ما مدى أهمية كل رمز مميّز آخر للإدخال me؟" وبعبارة أبسط، لنفترض أن كل رمز مميّز هو كلمة وأنّ السياق الكامل هو جملة واحدة. يُرجى مراعاة الجملة التالية:

لَمْ يَتَجَرَّبَ الْحَيَوَانُ عَلَى الْشَارِعِ لِأَنَّهُ كَانَ مُتْعَبًا جِدًّا.

وتضمّ الجملة السابقة 11 كلمة، لذا ركّزت كل كلمة من أصل 11 كلمة على الكلمات العشر الأخرى، وتساءلت عن مدى أهمية كل كلمة من هذه الكلمات العشرة بالنسبة إليها. على سبيل المثال، لاحظ أن الجملة تحتوي على الضمائر it. الضمائر غامضة غالبًا. يشير الضمير إلى الاسم الأخير دائمًا، ولكن في مثال الجملة، ما الاسم الذي يشير إليه مؤخرًا باسم الحيوان أو الشارع؟

تحدّد آلية الانتباه الذاتي مدى صلة كل كلمة قريبة بموضوع الضمائر it.

ما هي بعض حالات استخدام LLM؟

وتُعدّ عناصر إدارة علاقات العملاء فعّالة جدًا في المهمة التي تم إنشاؤها، ما يؤدي إلى إنشاء النص الأكثر ملاءمةً للاستجابة. حتى أنهم بدأوا في تقديم أداء قوي في المهام الأخرى، مثل التلخيص والإجابة عن الأسئلة وتصنيف النص. وتُسمّى هذه إمكانات الطوارئ. ويمكن لحلول LLM أيضًا حلّ بعض المسائل الحسابية وكتابة الرموز (على الرغم من أنّه من المستحسن التحقّق من أعمالهم).

ومن الواضح أنّ خوارزمية LLM ممتازة في محاكاة أنماط الكلام البشرية. من بين أمور أخرى، يُعد هذا النظام رائعًا في دمج المعلومات مع أنماط ودرجات مختلفة.

ومع ذلك، يمكن أن تتألّف عناصر LLM من مكوّنات النماذج التي تؤدي إلى أكثر من مجرد إنشاء نص. تم استخدام عناصر LLM الحديثة لإنشاء أدوات رصد المشاعر وأدوات تصنيف اللغة غير اللائقة وإنشاء ترجمة الصور.

اعتبارات LLM

أما النماذج الكبيرة، فليست لها عيوب.

إنّ أكبر عدد من مشغّلات الوسائط المتعددة باهظة الثمن. قد يستغرق تدريبها عدة أشهر، ونتيجةً لذلك، يتم استهلاك كمّ كبير من الموارد.

ويمكن أيضًا إعادة توظيفها في مهام أخرى، وهي عبارة عن بطانة فضية ذات قيمة كبيرة.

تُشكّل النماذج التدريبية التي تتضمن أكثر من تريليون معلّمة تحديات هندسية. تحتاج تقنيات البنية الأساسية والبرمجة الخاصة إلى تنسيق التدفق إلى الشرائح ثم العودة إليها.

هناك طرق لخفض تكاليف هذه النماذج الكبيرة. منهجان هما: الاستنتاج بلا اتصال بالإنترنت وتقطير.

قد يكون الانحياز مشكلة في نماذج كبيرة جدًا ويجب اعتباره في التدريب والنشر.

ومع تدريب هذه النماذج على اللغة البشرية، يمكن أن يؤدي ذلك إلى حدوث العديد من المشاكل الأخلاقية المحتملة، بما في ذلك إساءة استخدام اللغة والانحياز في العِرق والجنس والجنس والدين وغير ذلك.

من الواضح أنّ هذه النماذج لا تزال تتسع لتصل إلى مستوى أفضل، وكانت هناك حاجة جاهدة لفهم أسبابها والحدّ من تأثيرها. اطّلِع على مزيد من المعلومات حول نهج Google في التعامل مع الذكاء الاصطناعي المسؤول.