النماذج اللغوية الكبيرة: الضبط الدقيق والتقطير وهندسة الطلبات

تناولت الوحدة السابقة النماذج اللغوية الكبيرة ذات الأغراض العامة، والتي تُعرف بشكل مختلف بما يلي:

  • النماذج اللغوية الكبيرة الأساسية
  • النماذج اللغوية الكبيرة الأساسية
  • النماذج اللغوية الكبيرة المدربة مسبقًا

يتم تدريب النموذج اللغوي الكبير الأساسي على كمية كافية من اللغة الطبيعية "لمعرفة" قدرٍ ملحوظ من القواعد والكلمات والمصطلحات. يمكن لنموذج اللغة الأساسي توليد جمل مفيدة حول المواضيع التي تم تدريبه عليها. بالإضافة إلى ذلك، يمكن لنموذج تعلُّم آلي أساسي تنفيذ مهام معيّنة تُعرف تقليديًا باسم "مهام إبداعية"، مثل كتابة الشعر. ومع ذلك، فإنّ المخرجات المولّدة للنصوص في نموذج الذكاء الاصطناعي اللغوي الأساسي ليست حلاً لأنواع أخرى من المشاكل الشائعة في الذكاء الاصطناعي، مثل الانحدار أو التصنيف. في حالات الاستخدام هذه، يمكن استخدام النموذج اللغوي الكبير كمنصة بدلاً من الحلّ.

إنّ تحويل نموذج تعلُّم لغوي ضخم أساسي إلى حلّ يستوفي احتياجات التطبيق يتطلّب عملية تُعرف باسم التحسين. تُنشئ عملية ثانوية تُعرف باسم التقطير إصدارًا أصغر (مع عدد أقل من المَعلمات) من النموذج الذي تم تحسينه.

التحسين

تُظهر الأبحاث أنّ قدرات التعرّف على الأنماط في نماذج اللغة الأساسية قوية جدًا لدرجة أنّها تتطلّب أحيانًا تدريبًا إضافيًا محدودًا نسبيًا لتعلّم مهام معيّنة. يساعد هذا التدريب الإضافي النموذج في إجراء توقّعات أفضل لأداء مهمة معيّنة. يُعرف هذا التدريب الإضافي باسم التحسين، ويُتيح استخدام الجانب العملي لنموذج الذكاء الاصطناعي القانوني.

يتم تدريب النموذج المحسَّن على أمثلة محددة للمهمة التي سينفّذها تطبيقك. يمكن للمهندسين أحيانًا تحسين نموذج لغوي كبير أساسي استنادًا إلى بضع مئات أو بضع آلاف من أمثلة التدريب فقط.

على الرغم من العدد الصغير نسبيًا لأمثلة التدريب، فإنّ عملية التحسين العادية تتطلب غالبًا تكلفة حسابية مرتفعة. ويرجع ذلك إلى أنّ الضبط العادي يتضمّن تعديل الوزن والانحياز لكل مَعلمة في كل تكرار backpropagation. لحسن الحظ، يمكن لعملية أكثر ذكاءً تُعرف باسم التخصيص بكفاءة للمَعلمات تحسين نموذج اللغة الكبير من خلال تعديل مجموعة فرعية فقط من المَعلمات في كل تكرار من تكرارات الانتشار العكسي.

وتكون توقّعات النموذج الذي تمّت تحسينه عادةً أفضل من توقّعات نموذج الذكاء الاصطناعي اللغوي الأساسي. ومع ذلك، يحتوي النموذج المحسَّن على عدد المَعلمات نفسه في نموذج اللغة الضخمة الأساسي. وبالتالي، إذا كان نموذج اللغة الضخم الأساسي يحتوي على عشرة مليارات مَعلمة، سيحتوي الإصدار المحسَّن أيضًا على عشرة مليارات مَعلمة.

التقطير

تحتوي معظم النماذج اللغوية الكبيرة التي تم ضبطها بدقة على أعداد هائلة من المَعلمات. نتيجةً لذلك، تحتاج نماذج اللغة الكبيرة التأسيسية إلى موارد حوسبية وبيئية هائلة لإنشاء التوقّعات. تجدر الإشارة إلى أنّ أقسامًا كبيرة من هذه المَعلمات لا تكون عادةً ذات صلة بتطبيق معيّن.

تؤدي التقطير إلى إنشاء نسخة أصغر من نموذج اللغة الضخم. يُنشئ النموذج اللغوي الكبير المُكثَّف توقّعات بشكل أسرع بكثير ويتطلّب موارد حسابية وبيئية أقل مقارنةً ب النموذج اللغوي الكبير الكامل. يُرجى العِلم أنّ توقّعات النموذج المشتق تذكَّر أنّ النماذج اللغوية الكبيرة التي تحتوي على معلَمات أكثر تُقدّم دائمًا توقّعات أفضل من النماذج اللغوية الكبيرة التي تحتوي على معلَمات أقل.

هندسة الطلبات

هندسة الطلبات تسمح للمستخدمين النهائيين لنموذج اللغة الضخمة بتخصيص مخرجات النموذج. أي أنّ المستخدمين النهائيين يوضّحون طريقة ردّ النموذج اللغوي الكبير على الطلب.

يتعلم البشر بشكل جيد من خلال الأمثلة. وينطبق ذلك أيضًا على النماذج اللغوية الكبيرة. يُطلَق على عرض مثال واحد على نموذج لغوي كبير الطلب بمثال واحد. على سبيل المثال، لنفترض أنك تريد أن يستخدم أحد النماذج التنسيق التالي لإخراج عائلة فاكهة:

يُدخل المستخدم اسم فاكهة: يعرض النموذج اللغوي الكبير فئة هذه الفاكهة.

يعرض الطلب ذي اللقطة الواحدة النموذج اللغوي الكبير مثالاً واحدًا للتنسيق السابق، ثم يطلب من النموذج اللغوي الكبير إكمال طلب بحث استنادًا إلى ذلك المثال. على سبيل المثال:

peach: drupe
apple: ______

يكفي أحيانًا مثال واحد. إذا كان الأمر كذلك، تُخرج نموذج اللغة الكبيرة توقّعًا مفيدًا. على سبيل المثال:

apple: pome

وفي حالات أخرى، لا يكون مثال واحد كافيًا. وهذا يعني أنّ المستخدم يجب أن يُظهر للنموذج اللغوي الكبير أمثلة متعددة. على سبيل المثال، يحتوي الطلب التالي على مثالَين:

plum: drupe
pear: pome
lemon: ____

يُعرف تقديم أمثلة متعددة باسم الطلب بأمثلة قليلة. يمكنك اعتبار أول سطرين من الطلب السابق مثالين للتدرّب.

هل يمكن للنموذج اللغوي الكبير تقديم توقّعات مفيدة بدون أمثلة (طلبات بلا مثال)؟ وفي بعض الأحيان، لكن النماذج اللغوية الكبيرة تحب السياق. بدون سياق، قد يؤدي الطلب التالي بلا مثال إلى عرض معلومات عن شركة التكنولوجيا بدلاً من الفاكهة:

apple: _______

الاستنتاج بلا إنترنت

يكون عدد المعلَمات في "النموذج اللغوي الكبير" (LLM) كبيرًا جدًا أحيانًا لدرجة أنّ الاستنتاج على الإنترنت بطيء جدًا بحيث لا يكون عمليًا في مهام الحياة الواقعية، مثل الانحدار أو التصنيف. نتيجةً لذلك، تعتمد العديد من فِرق المهندسين على الاستنتاج بلا إنترنت (المعروف أيضًا باسم الاستنتاج المجمّع أو الاستنتاج الثابت) بدلاً من ذلك. بعبارة أخرى، بدلاً من الاستجابة للطلبات في وقت عرضها، يقدّم النموذج المدّرب توقّعات مسبقًا ثم يخزنها في ذاكرة التخزين المؤقت.

لا يهمّ إذا استغرق النموذج اللغوي الكبير وقتًا طويلاً لإكمال مهمته إذا كان عليه تنفيذ المهمة مرة واحدة في الأسبوع أو مرة واحدة في الشهر.

على سبيل المثال، استخدَم محرّك بحث Google نموذج لغوي كبير (LLM) للقيام بعملية استنتاج بلا إنترنت من أجل تخزين قائمة تضم أكثر من 800 مرادف للقاحات كوفيد-19 بأكثر من 50 لغة. بعد ذلك، استخدم محرّك بحث Google القائمة المخزّنة مؤقتًا لتحديد طلبات البحث عن اللقاحات في عدد الزيارات المباشرة.

استخدام النماذج اللغوية الكبيرة بمسؤولية

مثل أي شكل من أشكال تعلُّم الآلة، تتشارك النماذج اللغوية الكبيرة بشكل عام التحيزات التالية:

  • البيانات التي تم تدريبها عليها
  • البيانات التي تم استخلاصها منها.

استخدِم النماذج اللغوية الكبيرة بإنصاف ومسؤولية وفقًا للدروس المقدَّمة في وقت سابق من هذه الدورة التدريبية.

تمرين: التحقق من فهمك

أي من العبارات التالية صحيحة بشأن النماذج اللغوية الكبيرة؟
يحتوي النموذج اللغوي الكبير المكثّف على مَعلمات أقل من النموذج اللغوي الأساسي الذي نشأ منه.
نعم، يؤدي التكثيف إلى تقليل عدد المَعلمات.
يحتوي نموذج اللغة الكبير المحسَّن على مَعلمات أقل من نموذج اللغة الأساسي الذي تم تدريبه عليه.
يحتوي النموذج المحسَّن على العدد نفسه من المَعلمات التي يحتوي عليها النموذج الأصلي للغة الأساسية.
وعندما ينفِّذ المستخدمون المزيد من العمليات الهندسية للطلبات، يزداد عدد المعلَمات في النموذج اللغوي الكبير.
لا تُضيف ميزة "هندسة الطلبات" (أو تزيل أو تعدّل) مَعلمات LLM.