وصفت الوحدة السابقة النماذج اللغوية الكبيرة المخصّصة للأغراض العامة، والتي تُعرف باسم:
- النماذج اللغوية الكبيرة الأساسية
- النماذج اللغوية الكبيرة الأساسية
- النماذج اللغوية الكبيرة المدربة مسبقًا
يتم تدريب النموذج اللغوي الكبير الأساسي على كمية كافية من اللغة الطبيعية "لمعرفة" قدرٍ ملحوظ من القواعد والكلمات والمصطلحات. يمكن لنموذج اللغة الأساسي توليد جمل مفيدة حول المواضيع التي تم تدريبه عليها. بالإضافة إلى ذلك، يمكن لنموذج تعلُّم آلي أساسي تنفيذ مهام معيّنة تُعرف تقليديًا باسم "مهام إبداعية"، مثل كتابة الشعر. ومع ذلك، فإنّ المخرجات المولّدة للنصوص في نموذج الذكاء الاصطناعي اللغوي الأساسي ليست حلاً لأنواع أخرى من المشاكل الشائعة في الذكاء الاصطناعي، مثل الانحدار أو التصنيف. بالنسبة إلى حالات الاستخدام هذه، يمكن أن تؤدي قاعدة بيانات نموذج اللغة الكبيرة بدور منصّة بدلاً من حلّ.
إنّ تحويل نموذج تعلُّم لغوي ضخم أساسي إلى حلّ يستوفي احتياجات التطبيق يتطلّب عملية تُعرف باسم التحسين. تُنشئ عملية ثانوية تُعرف باسم التقطير إصدارًا أصغر (مع عدد أقل من المَعلمات) من النموذج الذي تم تحسينه.
التحسين
تُظهر الأبحاث أنّ قدرات التعرّف على الأنماط في نماذج اللغة الأساسية قوية جدًا لدرجة أنّها تتطلّب أحيانًا تدريبًا إضافيًا محدودًا نسبيًا لتعلّم مهام معيّنة. يساعد هذا التدريب الإضافي النموذج في إجراء توقّعات أفضل لأداء مهمة معيّنة. يُعرف هذا التدريب الإضافي باسم التحسين، ويُتيح الاستفادة من الجانب العملي لنموذج الذكاء الاصطناعي القانوني.
يتم تدريب ميزة "التحسين الدقيق" على أمثلة محددة للمهمة التي سينفّذها تطبيقك. يمكن للمهندسين أحيانًا تحسين نموذج لغوي كبير أساسي استنادًا إلى بضع مئات أو بضع آلاف من أمثلة التدريب فقط.
على الرغم من العدد الصغير نسبيًا لأمثلة التدريب، فإنّ عملية التحسين العادية تكون غالبًا باهظة التكلفة من حيث العمليات الحسابية. ويرجع ذلك إلى أنّ التحسين العادي ينطوي على تعديل وزن كل مَعلمة وانحيازها في كل تكرار من الانتشار العكسي. لحسن الحظ، يمكن لعملية أكثر ذكاءً تُعرف باسم التخصيص الفعال للمَعلمات تحسين نموذج اللغة الكبير من خلال تعديل مجموعة فرعية فقط من المَعلمات في كل تكرار من تكرارات أسلوب الانتشار العكسي.
وتكون توقّعات النموذج الذي تمّت تحسينه عادةً أفضل من توقّعات نموذج الذكاء الاصطناعي اللغوي الأساسي. ومع ذلك، يحتوي النموذج المحسَّن على العدد نفسه من المَعلمات مثل نموذج اللغة الضخم الأساسي. وبالتالي، إذا كان نموذج اللغة الضخم الأساسي يحتوي على عشرة مليارات مَعلمة، سيحتوي الإصدار المحسَّن أيضًا على عشرة مليارات مَعلمة.
التقطير
تحتوي معظم النماذج اللغوية الكبيرة التي تم تحسينها على أعداد هائلة من المَعلمات. نتيجةً لذلك، تحتاج النماذج اللغوية الكبيرة التأسيسية إلى موارد حوسبة وبيئية هائلة لإنشاء التوقّعات. تجدر الإشارة إلى أنّ أجزاءً كبيرة من هذه المَعلمات لا تكون عادةً ذات صلة بتطبيق معيّن.
تؤدي التقطير إلى إنشاء نسخة أصغر من نموذج اللغة الضخم. يُنشئ النموذج اللغوي الكبير المُكثَّف توقّعات بشكل أسرع بكثير ويتطلّب موارد حسابية وبيئية أقل مقارنةً بالنموذج اللغوي الكبير الكامل. ومع ذلك، فإنّ توقّعات النموذج المُكثَّف ليست عمومًا جيدة بقدر توقّعات نموذج اللغة الضخمة الأصلي. تذكَّر أنّ النماذج اللغوية الكبيرة التي تحتوي على معلَمات أكثر تُقدّم دائمًا توقّعات أفضل من النماذج اللغوية الكبيرة التي تحتوي على معلَمات أقل.
انقر على الرمز لمعرفة كيفية عمل ميزة "التقطير".
هندسة الطلبات
هندسة الطلبات تتيح للمستخدمين النهائيين في نموذج اللغة الضخمة تخصيص مخرجات النموذج. وهذا يعني أنّ المستخدمين النهائيين يوضّحون كيفية استجابة نموذج اللغة الضخمة لطلبهم.
يتعلم البشر بشكل جيد من خلال الأمثلة. وينطبق ذلك أيضًا على النماذج اللغوية الكبيرة. يُعرف عرض مثال واحد على نموذج اللغة الكبير باسم الطلب بمثال واحد. على سبيل المثال، لنفترض أنّك تريد أن يستخدم النموذج التنسيق التالي لإخراج عائلة فاكهة:
يُدخل المستخدم اسم فاكهة: يعرض نموذج اللغة الكبير فئة هذه الفاكهة.
يعرض الطلب الذي يتم تنفيذه لمرة واحدة للنموذج اللغوي الكبير مثالاً واحدًا على التنسيق السابق، ثم يطلب منه إكمال طلب بحث استنادًا إلى هذا المثال. على سبيل المثال:
peach: drupe apple: ______
يكفي أحيانًا مثال واحد. إذا كان الأمر كذلك، تُخرج نموذج اللغة الكبيرة توقّعًا مفيدًا. على سبيل المثال:
apple: pome
وفي حالات أخرى، لا يكون مثال واحد كافيًا. وهذا يعني أنّ المستخدم يجب أن يُظهر للنموذج اللغوي الكبير أمثلة متعددة. على سبيل المثال، يحتوي الطلب التالي على مثالَين:
plum: drupe pear: pome lemon: ____
يُعرف تقديم أمثلة متعددة باسم الطلب بأمثلة قليلة. يمكنك اعتبار أول سطرين من الطلب السابق مثالين للتدرّب.
هل يمكن للنموذج اللغوي الكبير تقديم توقّعات مفيدة بدون أمثلة (طلبات بلا مثال)؟ في بعض الأحيان، ولكن تحب نماذج اللغة الكبيرة السياق. بدون سياق، قد يؤدي الطلب التالي بلا مثال إلى عرض معلومات عن شركة التكنولوجيا بدلاً من الفاكهة:
apple: _______
الاستنتاج بلا إنترنت
يكون عدد المَعلمات في نموذج اللغة الكبيرة أحيانًا كبيرًا جدًا لدرجة أنّ الاستنتاج على الإنترنت يكون بطيئًا جدًا لاستخدامه في المهام الواقعية، مثل الانحدار أو التصنيف. نتيجةً لذلك، تعتمد العديد من فِرق المهندسين على الاستنتاج بلا إنترنت (المعروف أيضًا باسم الاستنتاج المجمّع أو الاستنتاج الثابت) بدلاً من ذلك. بعبارة أخرى، بدلاً من الاستجابة للطلبات في وقت عرضها، يقدّم النموذج المدّرب توقّعات مسبقًا ثم يخزّنها.
لا يهمّ إذا استغرق النموذج اللغوي الكبير وقتًا طويلاً لإكمال مهمته إذا كان عليه تنفيذ المهمة مرة واحدة في الأسبوع أو مرة واحدة في الشهر.
على سبيل المثال، استخدَم محرّك بحث Google نموذج لغوي كبير (LLM) للقيام بعملية استنتاج بلا إنترنت من أجل تخزين قائمة تضم أكثر من 800 مرادف للقاحات كوفيد-19 بأكثر من 50 لغة. بعد ذلك، استخدم محرّك بحث Google القائمة المخزّنة مؤقتًا لتحديد طلبات البحث عن اللقاحات في عدد الزيارات المباشرة.
استخدام النماذج اللغوية الكبيرة بمسؤولية
مثل أي شكل من أشكال تعلُّم الآلة، تتشارك النماذج اللغوية الكبيرة بشكل عام التحيزات التالية:
- البيانات التي تم تدريبها عليها
- البيانات التي تم استخلاصها منها
استخدِم نماذج اللغة الكبيرة بشكل عادل ومسؤول، مع اتّباع الإرشادات الواردة في وحدات البيانات ووحدة المساواة.