النماذج اللغوية الكبيرة: الضبط الدقيق والتقطير وهندسة الطلبات

تناولت الوحدة السابقة النماذج اللغوية الكبيرة ذات الأغراض العامة، بطرق مختلفة تُعرف باسم:

  • النماذج اللغوية الكبيرة التأسيسية
  • النماذج اللغوية الكبيرة الأساسية
  • نماذج لغوية كبيرة مُدرَّبة مسبقًا

تم تدريب نموذج لغوي كبير (LLM) لإحدى المؤسسات على لغة طبيعية كافية "للتعرّف" رائع الكثير حول القواعد النحوية والكلمات والمصطلحات. يمكن للنموذج اللغوي الأساسي إنشاء جمل مفيدة حول المواضيع التي تم التدريب عليها وعلاوة على ذلك، يمكن للنماذج اللغوية الكبيرة (LLM) الأساسية تنفيذ مهام معيّنة تُعرف عادةً باسم و"إبداعي" مثل كتابة الشعر. في المقابل، إنّ النص التوليدي الأساسي هو إحدى النماذج اللغوية الكبيرة المخرجات ليست حلاً لأنواع أخرى من مشكلات التعلم الآلي الشائعة، مثل الانحدار أو التصنيف. في حالات الاستخدام هذه، يمكن أن يعرض النموذج اللغوي الكبير في المؤسسة باعتبارها منصة بدلاً من مجرد حل.

تحويل نموذج لغوي كبير (LLM) أساسي إلى حلّ يلبّي المتطلبات عملية تسمى الضبط الدقيق. عملية ثانوية تسمى تؤدي الدالة distillation إلى إنشاء نسخة أصغر (من عدد معلمات أقل) من النموذج المحسّن الأمثل.

التوليف الدقيق

تشير الأبحاث إلى أنّ قدرات فهم الأنماط في الأساس تكون النماذج اللغوية قوية للغاية لدرجة أنها تتطلب أحيانًا القليل من التدريب الإضافي لتعلم مهام محددة. يساعد هذا التدريب الإضافي النموذج على تقديم تنبؤات أفضل في مهمة محددة. هذا التدريب الإضافي، يسمى الضبط الدقيق، للكشف عن الجانب العملي للنماذج اللغوية الكبيرة.

تدريب تدريبات على أمثلة محددة لمهمة تطبيقك سننفذه. يمكن للمهندسين أحيانًا تحسين نموذج لغوي كبير (LLM) لأساس من خلال بضعة مئات أو بضعة آلاف من الأمثلة التدريبية.

على الرغم من العدد الضئيل نسبيًا من أمثلة التدريب، إلا أن ضبط مكلفًا من الناحية الحسابية. وهذا لأن الضبط الدقيق القياسي ينطوي على وتحديث الوزن والتحيز لكل معلمة في كل تكرار backpreagation. ومن حسن الحظ أن عملية أكثر ذكاءً تسمى معاملات التوليف ضبط النموذج اللغوي الكبير من خلال ضبط مجموعة فرعية فقط من المعلمات في كل تكرار الانتشار العكسي.

عادةً ما تكون توقّعات النموذج الدقيق أفضل من النموذج اللغوي الكبير الأساسي. والتنبؤات. ومع ذلك، يحتوي النموذج الدقيق على نفس عدد باستخدام النموذج اللغوي الكبير (LLM) الأساسي. مثلاً، إذا كانت إحدى النماذج اللغوية الكبيرة تضمّ عشرة مليارات فإن الإصدار المحسّن سيحتوي أيضًا على عشرة مليارات المعلَمات.

التقطير

تحتوي معظم النماذج اللغوية الكبيرة المحسّنة على عدد هائل من المَعلمات. وبالتالي، تتطلب النماذج اللغوية الكبيرة موارد حسابية وبيئية ضخمة لإنشاء التنبؤات. تجدر الإشارة إلى أنّ جزءًا كبيرًا من هذه المعاملات عادةً ما تكون غير مناسبة لتطبيق معين.

الاستخلاص تنشئ نسخة أصغر من النموذج اللغوي الكبير. النموذج اللغوي الكبير استخلاصه ينشئ توقّعات بسرعة أكبر وتتطلب موارد حسابية وبيئية أقل من النموذج اللغوي الكبير الكامل. ومع ذلك، فإن تنبؤات النموذج المستخلصة لا بالقدر نفسه من جودة توقّعات النموذج اللغوي الكبير (LLM) الأصلي. تذكّر أنّ النماذج اللغوية الكبيرة التي تتضمّن المزيد من تنشئ المعلَمات دائمًا توقّعات أفضل من النماذج اللغوية الكبيرة التي تتضمّن عددًا أقل المعلَمات.

هندسة الطلبات

هندسة الطلبات يمكّن المستخدمين النهائيين للنموذج اللغوي الكبير من تخصيص نتائج النموذج. أي أنّ المستخدمين النهائيين يوضّحون طريقة ردّ النموذج اللغوي الكبير على الطلب.

يتعلم البشر جيدًا من الأمثلة. وينطبق ذلك أيضًا على النماذج اللغوية الكبيرة. عرض مثال واحد لنموذج لغوي كبير (LLM) يسمى طلب من لقطة واحدة: فعلى سبيل المثال، لنفترض أنك تريد أن يستخدم أحد النماذج التنسيق التالي لإخراج عائلة فاكهة:

يُدخل المستخدم اسم فاكهة، وهو مخرجات النموذج اللغوي الكبير (LLM) لفئة الفاكهة.

الطلب الذي يستخدم لقطة واحدة يعرض النموذج اللغوي الكبير مثالاً واحدًا للتنسيق السابق ثم تطلب من النموذج اللغوي الكبير إكمال طلب بحث استنادًا إلى هذا المثال. على سبيل المثال:

peach: drupe
apple: ______

وفي بعض الأحيان، يكفي تقديم مثال واحد. إذا كانت الإجابة نعم، يعرض النموذج اللغوي الكبير التنبؤ. على سبيل المثال:

apple: pome

في حالات أخرى، هناك مثال واحد غير كافٍ. أي أنه يجب على المستخدم عرض أمثلة متعددة للنماذج اللغوية الكبيرة. على سبيل المثال، يحتوي الطلب التالي على مثالين:

plum: drupe
pear: pome
lemon: ____

يسمى تقديم أمثلة متعددة طلب من بضع لقطات. يمكنك التفكير في أول سطرين من المطالبة السابقة على أنها تدريب الأمثلة.

هل يمكن للنموذج اللغوي الكبير تقديم تنبؤات مفيدة بدون أمثلة؟ يسأل)؟ في بعض الأحيان، تشبه النماذج اللغوية الكبيرة السياق. بدون سياق، قد لا تكون المطالبة التالية التي توفير معلومات حول شركة التكنولوجيا وليس الفاكهة:

apple: _______

الاستنتاج بلا إنترنت

يكون عدد المعلمات في النموذج اللغوي الكبير أحيانًا كبيرًا بحيث يمكن الاستنتاجها على الإنترنت بطيء جدًا بحيث لا يكون عمليًا في مهام العالم الحقيقي مثل الانحدار أو الفئات. وبالتالي، تعتمد العديد من الفرق الهندسية على الاستنتاج بلا إنترنت (أيضًا المعروف باسم الاستنتاج المجمَّع أو الاستنتاج الثابت) بدلاً من ذلك. بمعنى آخر، بدلاً من الرد على الاستعلامات في وقت العرض، النموذج المدرَّب على إجراء التنبؤات مسبقًا ثم يخزن تلك التوقعات في ذاكرة التخزين المؤقت.

لا يهم إذا كان إكمال النموذج اللغوي الكبير (LLM) مهمته وقتًا طويلاً إذا كان أن ينفّذ النموذج اللغوي الكبير المهمة مرة واحدة في الأسبوع أو مرة في الشهر

على سبيل المثال: "بحث Google" استخدام نموذج لغوي كبير (LLM) إجراء الاستنتاج بلا اتصال بالإنترنت لتخزين قائمة تضم أكثر من 800 مرادف مقابل لقاحات فيروس كورونا المستجد (كوفيد-19) بأكثر من 50 لغة. استخدم بحث Google بعد ذلك قائمة مخزّنة مؤقتًا لتحديد طلبات البحث عن اللقاحات في حركة المرور المباشرة.

استخدام النماذج اللغوية الكبيرة بمسؤولية

مثل أي شكل من أشكال تعلُّم الآلة، تشترك النماذج اللغوية الكبيرة بشكل عام في الانحيازات التالية:

  • البيانات التي تم تدريبهم عليها.
  • البيانات التي تم استخلاصها منها.

استخدام النماذج اللغوية الكبيرة (LLM) بإنصاف ومسؤولية وفقًا للدروس المقدَّمة سابقًا في هذه الدورة التدريبية.

تمرين: التحقق من فهمك

أي من العبارات التالية صحيحة بخصوص النماذج اللغوية الكبيرة؟
يحتوي النموذج اللغوي الكبير استخلاصه على معلَمات أقل من الأساس النموذج اللغوي الذي انبثق منه.
نعم، يقلل الاستخلاص من عدد المعاملات.
يحتوي النموذج اللغوي الكبير جدًا على معلَمات أقل من الأساس نموذج لغوي تم التدريب عليه.
يحتوي النموذج الدقيق على نفس عدد المعلمات النموذج اللغوي الأصلي في الأساس.
وعندما يُجري المستخدمون المزيد من هندسة الطلبات، يتزايد عدد المعلمات في نموذج لغوي كبير (LLM)
لا تضيف هندسة الطلبات (أو تزيل أو تغيِّر) النموذج اللغوي الكبير (LLM). المعلَمات.