نماذج لغوية كبيرة

ما المقصود بالنموذج اللغوي؟

نموذج لغوي تقدِّر احتمالية وجود رمز مميّز. أو سلسلة من الرموز المميزة تحدث ضمن تسلسل أطول رمز مميز يمكن أن يكون كلمة أو كلمة فرعية (مجموعة فرعية من الكلمة) أو حتى حرفًا واحدًا.

فكِّر في الجملة التالية والرموز المميّزة التي قد تكملها:

When I hear rain on my roof, I _______ in my kitchen.

ويحدد النموذج اللغوي احتمالات الرموز المميزة أو تسلسلات من الرموز المميزة لإكمال هذا الفراغ. على سبيل المثال، ما يلي يحدد جدول الاحتمالات بعض الرموز المميزة المحتملة واحتمالاتها:

الاحتمالية الرموز المميّزة
9.4% طهو الحساء
‫5.2% تحضير غلّاية
3.6% كوير
2.5% قيلولة
‫2.2% استرخاء

وفي بعض الحالات، يمكن أن يكون تسلسل الرموز جملة كاملة، أو فقرة كاملة أو حتى مقال كامل.

يمكن للتطبيق استخدام جدول الاحتمالات لإنشاء التنبؤات. وقد يكون التوقع هو الأعلى احتمالية (على سبيل المثال، "طهي الحساء") أو اختيار عشوائي من الرموز المميزة التي لها احتمالية أكبر من قيمة الحد الأقصى المسموح به.

يمكن أن يؤدي تقدير احتمالية ملء الفراغ في تسلسل نصي إلى مهام أكثر تعقيدًا، بما في ذلك:

  • يتم إنشاء النص.
  • ترجمة النص من لغة إلى أخرى.
  • تلخيص المستندات

تتطوّر النماذج اللغوية الحديثة من خلال نمذجة الأنماط الإحصائية للرموز المميّزة تمثيلات داخلية قوية للغاية للغة ويمكنها إنشاء لغة معقولة.

نماذج لغوية بتنسيق N غرام

ني غرام هي تسلسلات مرتبة من الكلمات لإنشاء نماذج لغوية، حيث يشير الحرف N إلى عدد الكلمات في التسلسل. على سبيل المثال، عندما تساوي N 2، فإن جرام N يسمى 2 غرام (أو bigram); عندما يكون N 5، يكون N-gram يسمى 5 غرامات. في ما يتعلق بالعبارة التالية في مستند تدريب:

you are very nice

ويكون مقدار الـ 2 غرام الناتج على النحو التالي:

  • أنت
  • هم للغاية
  • جميل جدًا!

عندما يكون N هو 3، يسمى N-gram 3 غرام (أو trigram). بناءً على نفس العبارة، الـ 3 غرامات الناتجة هي:

  • أنت حقا.
  • لطيفة جدًا

عند إدخال كلمتين، يمكن لأي نموذج لغوي يستند إلى 3 غرامات التنبؤ في احتمالية ظهور الكلمة الثالثة. على سبيل المثال، في ما يتعلق بالكلمتين التاليتين:

orange is

يفحص النموذج اللغوي جميع الأنواع الثلاثة المختلفة المستمدة من تدريبه. مجموعة تبدأ بـ orange is لتحديد الكلمة الثالثة على الأرجح. يمكن أن تبدأ المئات من 3 غرامات بالكلمتين orange is، ولكن يمكنك التركيز فقط على الاحتمالين التاليين:

orange is ripe
orange is cheerful

الاحتمال الأول (orange is ripe) يتعلق بالبرتقال، في حين أن الاحتمال الثاني (orange is cheerful) يتعلق باللون برتقالية

السياق

يمكن أن يحتفظ البشر بسياقات طويلة نسبيًا. أثناء مشاهدة الفصل 3 من مسرحية، يمكنك الاحتفاظ بالمعرفة بالشخصيات التي تم إدخالها في الفصل 1. وبالمثل، فإن اللكم في النكتة الطويلة يجعلك تضحك لأنه يمكنك تذكر السياق من إعداد النكتة.

في النماذج اللغوية، يُعدّ السياق معلومات مفيدة قبل أو بعد الرمز المستهدف. يمكن أن يساعد السياق النموذج اللغوي في تحديد ما إذا كان "اللون البرتقالي" يشير إلى فاكهة الحمضيات أو لونها.

يمكن للسياق مساعدة النموذج اللغوي في تقديم تنبؤات أفضل، ولكنه 3 غرامات توفر سياقًا كافيًا؟ لكن للأسف، في 3 غرامات فقط التي تقدمها هي أول كلمتين. على سبيل المثال، لا تشير الكلمتان orange is إلى توفير سياق كافٍ للنموذج اللغوي للتنبؤ بالكلمة الثالثة. تؤدي النماذج اللغوية المستندة إلى 3 غرامات إلى ارتكاب الكثير من الأخطاء بسبب عدم توفّر السياق.

من المؤكد أن أحرف N الأطول ستوفر سياقًا أكثر من جرامات N الأقصر. ومع ذلك، كلما ازداد عدد N، انخفض الورود النسبي لكل مثيل. عندما يصبح N كبيرًا جدًا، فإن النموذج اللغوي عادةً ما يحتوي على عنوان لكل مرة ظهور لرموز N، وهو أمر غير مفيد للغاية في للتنبؤ بالرمز المستهدف.

الشبكات العصبية المتكررة

الأمراض العصبية المتكررة الشبكات وتوفر سياقًا أكثر من جرامات ن. الشبكة العصبية المتكررة هي نوع من الشبكة العصبونية التي تتدرب على سلسلة من الرموز المميزة. على سبيل المثال، شبكة عصبية متكررة يمكنه التدريج تعلم (وتعلّم تجاهل) السياق المحدد من كل كلمة في جملة، تمامًا كما تفعل عند الاستماع إلى شخص ما يتحدث. يمكن للشبكة العصبية المتكررة الكبيرة الحصول على سياق من خلال عدة فقرات جُمل.

وبالرغم من أن الشبكات العصبية المتكررة تتعلم سياقًا أكثر من الجار الأقرب، إلا أن مقدار في سياق مفيد، يمكن للشبكات العصبية المتكررة أن تستوعب الأمر محدودة. تقيّم الشبكات العصبية المتكررة المعلومات "رمز مميّز بواسطة رمز مميز". وعلى النقيض، فإن النماذج اللغوية الكبيرة—موضوع — يمكنه تقييم السياق بالكامل في وقت واحد.

لاحظ أن تدريب الشبكات العصبية المتكررة على السياقات الطويلة يقيد التدرج المتلاش المشكلة.

تمرين: التحقق من فهمك

ما النموذج اللغوي الذي يقدم تنبؤات أفضل للنص الإنجليزي؟
  • نموذج لغوي يستند إلى 6 غرامات
  • نموذج لغوي يستند إلى 5 غرامات
تعتمد الإجابة على حجم التدريب وتنوعه تعيين.
إذا شملت مجموعة التدريب ملايين المستندات المتنوعة، فإن النموذج القائم على 6 غرامات من المرجح أن يتفوق على النموذج بناءً على 5 غرامات.
نموذج اللغة استنادًا إلى 6 غرامات.
وهذا النموذج اللغوي يتضمن مزيدًا من السياق، ولكن ما لم يكن هذا النموذج على الكثير من المستندات، فإن معظم المشروعات نادرة الحدوث.
تمثّل هذه السمة نموذج اللغة استنادًا إلى 5 غرامات.
هذا النموذج اللغوي يتضمن سياقًا أقل، لذا من غير المحتمل أن أفضل من النموذج اللغوي بناءً على 6 غرامات.