تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات تقييم اللغة. بالنسبة لجميع مصطلحات مسرد المصطلحات، انقر هنا.
A
تنبيه
آلية مستخدمة في شبكة عصبية تشير إلى أهمية كلمة معينة أو جزء من كلمة ما. ضغط الانتباه كمية المعلومات التي يحتاجها النموذج للتنبؤ بالرمز/الكلمة التالية. قد تتكون آلية الانتباه النموذجية من المجموع المرجح على مجموعة من المدخلات، حيث يتم احتساب الوزن لكل إدخال من خلال جزء آخر من الشبكة العصبية.
يمكنك أيضًا مراجعة الاهتمام الذاتي الانتباه الذاتي متعدد الرؤوس، وهي الوحدات الأساسية في المحوّلات.
برنامج ترميز تلقائي
يشير هذا المصطلح إلى نظام يتعلّم كيفية استخراج أهم المعلومات من إدخال. برامج الترميز التلقائي هي مزيج من برامج الترميز برنامج فك الترميز: تعتمد برامج الترميز التلقائي على العملية التالية المؤلفة من خطوتَين:
- يربط برنامج الترميز الإدخال بأبعاد أقل (عادةً) مع فقدان البيانات. (متوسط).
- تنشئ أداة فك الترميز نسخة مع فقدان البيانات من الإدخال الأصلي عن طريق تعيين الشكل ذي الأبعاد الأقل إلى الأبعاد الأصلية ذات الأبعاد الأعلى تنسيق الإدخال.
يتم تدريب برامج الترميز التلقائي بشكل شامل من خلال محاولة برنامج فك الترميز إعادة إنشاء الإدخال الأصلي من التنسيق المتوسط لبرنامج الترميز بأكبر قدر ممكن. وذلك لأن التنسيق المتوسط أصغر (أقل أبعادًا) من التنسيق الأصلي، يتم فرض تشغيل برنامج الترميز التلقائي لمعرفة المعلومات الضرورية في المدخلات، ولن يكون للمخرجات متطابقة تمامًا مع المدخلات.
على سبيل المثال:
- إذا كانت بيانات الإدخال رسمية، فستكون النسخة غير الدقيقة مشابهة الرسم الأصلي، ولكن تم تعديله إلى حد ما. ربما تزيل النسخة غير الدقيقة التشويش من الرسم الأصلي أو تملأ بعض وحدات البكسل المفقودة.
- إذا كانت بيانات الإدخال نصية، فسينشئ برنامج الترميز التلقائي نصًا جديدًا يحاكي (ولكنه ليس مطابقًا) للنص الأصلي.
اطّلِع أيضًا على برامج الترميز التلقائية المختلفة.
نموذج الانحدار التلقائي
نموذج يستنتج توقّعًا استنادًا إلى ما سبق والتنبؤات. فعلى سبيل المثال، تتوقع النماذج اللغوية الانحدارية التلقائية الرمز المميّز استنادًا إلى الرموز المميّزة المتوقَّعة سابقًا. كلها مستندة إلى Transformer النماذج اللغوية الكبيرة تراجع تلقائي.
وفي المقابل، لا تكون عادةً نماذج الصور المستندة إلى GAN انحدارية تلقائيًا. لأنها تنشئ صورة في عملية انتقال واحدة وليس بشكل متكرر الخطوات. ومع ذلك، بعض نماذج إنشاء الصور تتحرك تلقائيًا بسبب تقوم بإنشاء صورة بخطوات.
B
كيس من الكلمات
تمثيل للكلمات في عبارة أو فقرة بغض النظر عن الترتيب. فعلى سبيل المثال، تمثل مجموعة الكلمات اتباع ثلاث عبارات بشكل متماثل:
- الكلب يقفز
- تقفز الكلب
- كلب يقفز
ويتم تعيين كل كلمة على فهرس في متّجه متفرق، حيث يشير فإن المتجه يحتوي على فهرس لكل كلمة في المفردات. على سبيل المثال: يتم تعيين عبارة قفز الكلب في متجه للخصائص بقيمة غير صفرية في الفهارس الثلاثة المقابلة للكلمات the وdog يقفز. ويمكن أن تكون القيمة غير الصفرية أيًا مما يلي:
- A 1 للإشارة إلى وجود كلمة.
- عدد مرات ظهور كلمة في الحقيبة. على سبيل المثال: إذا كانت العبارة الكلب الكستنائي هو كلب بفرو كستنائي، فسيتم تمثيل maroon وdog على أنه 2، بينما يتم تمثيل الكلمات الأخرى سيتم تمثيلها كـ 1.
- بعض القيم الأخرى، مثل لوغاريتم عدد مرات ظهور الكلمة في الحقيبة.
برنامج الترميز الثنائي الاتجاه BERT تمثيلات من المحوّلين)
بنية نموذج تمثيل للنص. مدرب ويمكن أن يعمل نموذج BERT كجزء من نموذج أكبر لتصنيف النص أو مهام تعلُّم الآلة الأخرى.
ويتميز نموذج BERT بالخصائص التالية:
- تستخدم بنية Transformer، وبالتالي يعتمد على الاهتمام الذاتي.
- استخدام جزء برنامج الترميز في المحوِّل وظيفة برنامج الترميز تقديم تمثيلات نصية جيدة، بدلاً من تنفيذ عملية كتابة مهمة مثل التصنيف.
- ثنائي الاتجاه.
- يستخدم الإخفاء من أجل التدريب غير الخاضع للإشراف:
تشمل صيغ BERT ما يلي:
يُرجى الاطّلاع على مقالة فتح المصدر BERT: التدريب المُسبَق على التطوّر بعد اللغات الطبيعية جارٍ المعالجة للحصول على نظرة عامة على نماذج BERT.
ثنائي الاتجاه
مصطلح يستخدم لوصف نظام يقيّم النص الذي يسبق ويتّبع قسمًا مستهدفًا من النص. في المقابل، نظام أحادي الاتجاه فقط يقيّم النص الذي يسبق القسم المستهدف من النص.
على سبيل المثال، يمكنك استخدام نموذج لغوي مقنَّع تحديد احتمالات الكلمة أو الكلمات التي تمثل التسطير في السؤال التالي:
ما هو _____ معك؟
يجب أن يعتمد النموذج اللغوي أحادي الاتجاه على احتمالاته فقط على السياق الذي تقدمه الكلمات "ماذا" و"هو" و"الـ". في المقابل، كما يمكن لنموذج لغوي ثنائي الاتجاه الحصول على سياق من "مع" و"أنت"، وهو ما قد يساعد النموذج في تقديم تنبؤات أفضل.
نموذج لغوي ثنائي الاتجاه
نموذج لغوي يحدد احتمالية إلا أن هذا الرمز موجود في موقع معين في مقتطف من النص استنادًا إلى النص السابق واللاحق.
بيغرام
جرام n يكون فيه N=2.
دراسة التقييم الثنائي اللغة (BLEU)
درجة بين 0.0 و1.0، بما يشمل ذلك، تشير إلى جودة الترجمة بين لغتين بشريتان (على سبيل المثال، بين الإنجليزية والروسية). البلوتوث الدرجة 1.0 تشير إلى ترجمة مثالية؛ تشير درجة BLEU بقيمة 0.0 إلى ترجمة سيئة.
C
نموذج لغوي سببي
مرادف للنموذج اللغوي أحادي الاتجاه.
اطّلِع على النموذج اللغوي الثنائي الاتجاه من أجل تحديد أوجه الاختلاف في النمذجة اللغوية المختلفة.
سلسلة التفكير
أحد أساليب هندسة الطلبات التي تشجع نموذج لغوي كبير (LLM) لشرح السبب، خطوة بخطوة. على سبيل المثال، ضع في اعتبارك الطلب التالي، دفع انتباه خاص إلى الجملة الثانية:
كم عدد القوى التي سيختبرها السائق في سيارة تنتقل من 0 إلى 60 ميل في الساعة في 7 ثوان؟ في الإجابة، اعرض جميع العمليات الحسابية ذات الصلة.
من المرجّح أن يكون ردّ النموذج اللغوي الكبير:
- إظهار سلسلة من المعادلات الفيزيائية، من خلال التعويض عن القيم 0 و60 و7 في الأماكن المناسبة.
- اشرح سبب اختيارها لهذه المعادلات وما الذي تعنيه المتغيرات المختلفة.
تجبر سلسلة التفكير التي تفرض على النموذج اللغوي الكبير إجراء جميع العمليات الحسابية مما قد يؤدي إلى إجابة أكثر دقة. بالإضافة إلى ذلك، يمكن أن تساعد سلسلة التفكير المستخدم من مراجعة خطوات النموذج اللغوي الكبير لتحديد ما إذا كان أو لا تكون الإجابة منطقية.
محادثة
يعني محتوى الحوار المتبادل مع نظام تعلُّم الآلة، نموذج لغوي كبير: التفاعل السابق في محادثة (ما تمت كتابته وكيف استجاب النموذج اللغوي الكبير) ليصبح سياق للأجزاء اللاحقة من المحادثة.
إنّ الدردشة المبرمجة عبارة عن تطبيق لنموذج لغوي كبير.
محادثة
مرادف لكلمة هالوس.
قد يكون التخمين عبارة عن مصطلح أكثر دقة من الناحية الفنية من الهلوسة. ومع ذلك، أصبحت الهلوسة شائعة في المقام الأول.
تحليل الدوائر الانتخابية
تقسيم جملة إلى هياكل نحوية أصغر ("المكونات"). جزء لاحق من نظام التعلم الآلي، مثل نموذج فهم اللغة الطبيعية تحليل المكونات بسهولة أكبر من الجملة الأصلية. على سبيل المثال: ضع في الاعتبار الجملة التالية:
تبنت صديقتي قطتَين.
يمكن للمحلل اللغوي للدائرة تقسيم هذه الجملة إلى ما يلي: مكونين:
- صديقي هي عبارة اسمية.
- تبني قطتين هي عبارة فعلية.
ويمكن تقسيم هذه العناصر بشكل فرعي إلى مكوّنات أصغر. على سبيل المثال، عبارة الفعل
تم تبني قطتين
يمكن تقسيمها بشكل فرعي إلى:
- adopted هي فعل.
- قطتان هي عبارة اسمية أخرى.
تضمين لغة مستندة إلى السياق
تضمين يقترب من "الفهم" كلمات والعبارات بطرق يمكن للمتحدثين بها الأصليين. الصياغة اللغوية للسياق يمكن للتضمينات فهم البنية والدلالات والسياق المعقد.
على سبيل المثال، ننصحك بتضمين كلمة cow باللغة الإنجليزية. التضمينات القديمة مثل word2vec يمكن أن تمثل الإنجليزية كلمات بحيث تمثل المسافة في مساحة التضمين من بقرة إلى ثور مشابهة للمسافة من الإيروي (أنثى الخروف) ذاكرة الوصول العشوائي (ذكر الخراف) أو من أنثى إلى ذكر. الصياغة اللغوية للسياق يمكن للتضمينات أن ترتقي إلى أبعد من ذلك من خلال إدراك أن المتحدثين باللغة الإنجليزية في بعض الأحيان إذا كنت تستخدم كلمة بقرة، يمكنك استخدامها غالبًا للإشارة إلى بقرة أو ثور.
نافذة السياق
عدد الرموز المميزة التي يمكن أن يعالجها نموذج في الطلب كلما زادت نافذة السياق، زادت المعلومات التي يمكن أن يستخدمها النموذج لتقديم ردود مترابطة ومتسقة إلى المطالبة.
زهرة متلازمة
جملة أو عبارة ذات معنى غامض. تمثل أزهار الأزهار مشكلة كبيرة في الطبيعة فهم اللغة. على سبيل المثال، العنوان الشريط الأحمر يحمل سكاي سكريبر هو لأن نموذج NLU يمكنه تفسير العنوان الرئيسي حرفيًا مجازيًا.
D
برنامج فك الترميز
وبشكل عام، يتم تحويل أي نظام لتعلّم الآلة من مجموعة بيانات تمت معالجتها أو إلى كثافة أو تمثيلاً داخليًا إلى تمثيل أولي أو متفرّق أو خارجي أكثر
غالبًا ما تكون برامج فك الترميز جزءًا من نموذج أكبر، حيث يتم استخدامها بشكل متكرر إلى جانب برنامج ترميز
في المهام المتسلسلة إلى التسلسل، أداة فك الترميز الحالة الداخلية التي ينشئها برنامج التشفير لتوقع التسلسل.
يُرجى الرجوع إلى Transformer للاطّلاع على تعريف برنامج فك الترميز في بنية المحوِّل.
إزالة الضوضاء
أسلوب شائع لاستخدام التعلّم الذاتي حيث:
تتيح إزالة التشويش التعلُّم من أمثلة غير مصنَّفة. تعمل مجموعة البيانات الأصلية كهدف أو label البيانات الصاخبة كمدخل.
تستخدِم بعض النماذج اللغوية المقنَّعة ميزة إزالة التشويش. على النحو التالي:
- تتم إضافة الضوضاء بشكل مصطنع إلى جملة غير مصنَّفة من خلال إخفاء بعض الرموز المميزة.
- يحاول النموذج التنبؤ بالرموز المميزة الأصلية.
طلب مباشر
مرادف لطلب بدون لقطة.
E
تعديل المسافة
يشير ذلك المصطلح إلى قياس لمدى تشابه سلسلتَين نصيتَين مع بعضهما. وفي تعلُّم الآلة، يكون تعديل المسافة مفيدًا لأنه من السهل والحوسبة، وطريقة فعالة لمقارنة سلسلتين معروفتين مشابهة أو للعثور على سلاسل مشابهة لسلسلة معينة.
هناك تعريفات متعددة لتعديل المسافة، ولكل منها سلسلة مختلفة العمليات التجارية. على سبيل المثال، مسافة ليفنشتين تعتبر أقل عمليات حذف وإدراج واستبدال.
على سبيل المثال، مسافة ليفنشتين بين الكلمتين "قلب" و"السهام" 3 لأن التعديلات الثلاثة التالية هي أقل التغييرات لتغيير كلمة واحدة في الآخر:
- قلب ← قلب (استبدل "ع" بـ "د")
- deart → dart (حذف "e")
- dart → darts (إدراج "s")
طبقة التضمين
طبقة مخفية خاصة يتم تدريبها على التصنيف الفئوي عالية الأبعاد وتتعلم تدريجيًا متجه تضمين البعد. إنّ تمكّن طبقة التضمين الشبكة العصبية من التدريب بشكل أكبر فعالية من التطبيق فقط على خاصية الفئوية عالية الأبعاد.
على سبيل المثال، يدعم تطبيق Earth حاليًا حوالي 73000 نوع من الأشجار. فرض
أنواع الأشجار هي ميزة في نموذجك، لذا فإن
تشمل طبقة الإدخال متّجهًا واحدًا سريع يبلغ حجمه 73,000
العناصر الطويلة.
على سبيل المثال، قد يتم تمثيل السمة baobab
على النحو التالي:
الصفيفة المكونة من 73000 عنصر طويلة جدًا. في حال عدم إضافة طبقة تضمين النموذج، وسيستغرق التدريب وقتًا طويلاً للغاية بسبب ضرب 72999 صفرًا. ربما تختار طبقة التضمين لتضمين من 12 بُعدًا. وبالتالي، تتعلم طبقة التضمين تدريجيًا متجه تضمين جديد لكل نوع من أنواع الأشجار.
في بعض الحالات، يكون التجزئة بديلاً معقولاً. إلى طبقة تضمين.
مساحة التضمين
يشير ذلك المصطلح إلى مساحة الخط المتجه ذي الأبعاد d. مساحة الخط المتجه إليها. ومن الناحية المثالية، تحتوي مساحة التضمين على هيكل تسفر عن نتائج رياضية ذات مغزى؛ على سبيل المثال، في مساحة تضمين مثالية، إلى جانب تجميع وطرح التضمينات حل مهام تشبيه الكلمات.
منتج النقاط تضمينان هو مقياس للتشابه.
تضمين متجه
يمكن القول بوجهٍ عام، إن مصفوفة من أرقام النقطة العائمة مأخوذة من أي الطبقة المخفية التي تصف مدخلات تلك الطبقة المخفية. غالبًا ما يكون متجه التضمين هو صفيفة أرقام النقطة العائمة المدربة طبقة تضمين. على سبيل المثال، لنفترض أن طبقة التضمين يجب أن تتعرف على تضمين متجه لكل نوع من أنواع الأشجار البالغ عددها 73000 نوع على الأرض. ربما الصفيفة التالية هي متجه التضمين لشجرة الباوباب:
متجه التضمين ليس مجموعة من الأرقام العشوائية. طبقة تضمين هذه القيم من خلال التطبيق، على غرار الطريقة الشبكة العصبية تتعلم الأوزان الأخرى أثناء التدريب. يُعد كل عنصر من عناصر تصنيف الصفيفة إلى جانب بعض خصائص أنواع الأشجار. أي التي تمثل أنواع الأشجار بشكل أفضل؟ هذا صعب جدًا ليتمكّن البشر من تحديدها
الجزء المميز من الناحية الرياضية من الخط المتجه التضمين هو أن تحتوي العناصر على مجموعات متشابهة من أرقام النقاط العائمة. على سبيل المثال: تحتوي أنواع الأشجار على مجموعة أكثر تشابهًا من أعداد النقاط العائمة أنواع الأشجار المختلفة. تُعد الغابات الحمراء والسيكويا أنواعًا من الأشجار مرتبطة، لذلك سيكون لديه مجموعة متشابهة من الأرقام العائمة أكثر من ونخيل الخشب الأحمر وجوز الهند. ستكون الأرقام في متجه التضمين التغيير في كل مرة تُعيد فيها تدريب النموذج، حتى لو أعدت تدريب النموذج مع إدخال متطابق.
برنامج تشفير
بشكل عام، إنّ أي نظام لتعلُّم الآلة يُجري عملية تحويل من تنسيق أولي أو متناثر أو خارجي إلى تمثيل داخلي أكثر معالجة أو كثافة أو أكثر.
غالبًا ما تكون برامج الترميز جزءًا من نموذج أكبر، حيث يتم استخدامها بشكل متكرّر إلى جانب برنامج فك الترميز بعض المحوّلات إقران برامج الترميز ببرامج فك الترميز، علمًا أنّ المحولات الأخرى لا تستخدم سوى برنامج الترميز أو برنامج فك الترميز فقط.
وتستخدم بعض الأنظمة مخرجات برنامج التشفير كمدخل للتصنيف أو شبكة الانحدار.
في مهام التسلسل إلى التسلسل، يكون برنامج الترميز تأخذ تسلسل إدخال وترجع حالة داخلية (متّجه). بعد ذلك، يستخدم برنامج فك الترميز هذه الحالة الداخلية لتوقّع التسلسل التالي.
يُرجى مراجعة Transformer للاطّلاع على تعريف برنامج الترميز في بنية المحوِّل.
F
مطالبات بلقطات قليلة
طلب يحتوي على أكثر من مثال واحد ("بضعة") ما يوضّح أنّ النموذج اللغوي الكبير يجب أن يستجيب. على سبيل المثال، يحتوي الطلب الطويل التالي على أمثلة توضح نموذجًا لغويًا كبيرًا حول كيفية الإجابة عن طلب بحث.
أجزاء من طلب واحد | ملاحظات |
---|---|
ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن يجيب عليه النموذج اللغوي الكبير |
فرنسا: EUR | مثال واحد. |
المملكة المتحدة: جنيه إسترليني | مثال آخر. |
الهند: | الاستعلام الفعلي. |
تؤدي المطالبة بلقطات قليلة بشكل عام إلى نتائج مرغوبة أكثر من طلب من الصفر طلب من لقطة واحدة: ومع ذلك، فإن المطالبة بلقطات قليلة تتطلب مطالبة أطول.
طلب بضع لقطات هو أحد أشكال التعلّم بلقطات سريعة سيتم تطبيقها على التعلّم المستند إلى الطلبات.
كمنجة
يشير هذا المصطلح إلى مكتبة إعداد تركّز على Python أولاً وتضبط قيم الوظائف والفئات بدون رموز هجومية أو بنية تحتية. في حالة استخدام Pax، وقواعد رموز تعلُّم الآلة الأخرى، ستكون هذه الدوال تمثل الصفوف نماذج وتدريب المعلَمات الفائقة
كتمان أن قواعد رموز التعلم الآلي تنقسم عادةً إلى:
- رمز المكتبة الذي يحدّد الطبقات والمحسّنات.
- مجموعة البيانات "غراء" والذي يستدعي المكتبات ويقوم بتوصيل كل شيء معًا.
يلتقط Fiddle بنية استدعاء الرمز الملتصق في صورة غير مقيّمة قابل للتغيير.
توليف دقيق
يتم الحصول على تصريح تدريب ثانٍ خاص بالمهمة والذي يتم تنفيذه على نموذج مدرّب مسبقًا لتحسين معلَماته في حالة استخدام محددة. على سبيل المثال، قد يكون تسلسل التطبيق الكامل لبعض في ما يلي النماذج اللغوية الكبيرة:
- التدريب المُسبَق: يمكنك تدريب نموذج لغوي كبير على مجموعة بيانات عامة كبيرة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
- الضبط الدقيق: يمكنك تدريب النموذج المدرَّب مسبقًا على تنفيذ مهمة محدّدة. مثل الاستجابة لطلبات البحث الطبية عادةً ما يتضمن الضبط الدقيق مئات أو آلاف الأمثلة التي تركز على المهمة المحددة.
وكمثال آخر، تسلسل التدريب الكامل لنموذج الصورة الكبيرة هو التالي:
- التدريب المُسبَق: يمكنك تدريب نموذج صورة كبير على صورة عامة كبيرة. مثل جميع الصور في ويكيميديا كومنز.
- الضبط الدقيق: يمكنك تدريب النموذج المدرَّب مسبقًا على تنفيذ مهمة محدّدة. مثل إنشاء صور حيتان الأُركَة.
يمكن أن يستلزم الضبط الدقيق أي مزيج من الاستراتيجيات التالية:
- تعديل كل النماذج الحالية التي تم تدريبها مسبقًا المَعلمات: ويُسمى هذا أحيانًا الضبط الدقيق الكامل.
- تعديل بعض المَعلمات الحالية للنموذج المدرّب مسبقًا (عادةً ما تكون الطبقات الأقرب إلى طبقة إخراج)، مع الاحتفاظ بالمعلمات الأخرى الموجودة دون تغيير (عادةً ما تكون الطبقات الأقرب إلى طبقة الإدخال). عرض توليف بكفاءة المَعلمات:
- إضافة المزيد من الطبقات، عادةً فوق الطبقات الحالية الأقرب إلى طبقة الإخراج.
تُعدّ ميزة التوليف الدقيق أحد أشكال نقل التعلُّم. وبناءً على ذلك، قد يستخدم الضبط دالة فقدان مختلفة أو نموذجًا مختلفًا من تلك المستخدمة لتطبيق النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج صورة كبير مدرَّب مسبقًا لإنتاج نموذج انحدار عدد الطيور في صورة المدخلة.
حدِّد أوجه التشابه والاختلاف بين الضبط الدقيق والمصطلحات التالية:
كتان
برنامج مفتوح المصدر عالي الأداء مكتبة لـ وهي تكنولوجيا تعلُّم متعمّقة تستند إلى JAX. يوفر الكتان وظائف لتدريب الشبكات العصبونية أيضًا كطرق لتقييم أدائها.
Flaxformer
برنامج Transformer مفتوح المصدر المكتبة، تم تصميمه استنادًا إلى Flax، وهو مصمَّم في المقام الأول لمعالجة اللغات الطبيعية والأبحاث المتعددة الوسائط.
G
الذكاء الاصطناعي التوليدي
مجال تحويلي ناشئ بدون تعريف رسمي. مع ذلك، يتفق معظم الخبراء على أنّه يمكن لنماذج الذكاء الاصطناعي التوليدي إنشاء ("إنشاء") محتوى ينطبق عليه كل ما يلي:
- معقد
- متماسكة
- الصورة الأصلية
على سبيل المثال، يمكن أن ينشئ نموذج الذكاء الاصطناعي التوليدي معلومات متطوّرة والمقالات أو الصور.
بعض التكنولوجيات السابقة، بما في ذلك LSTMs وRNN، أيضًا إنشاء بيانات أصلية المحتوى المترابط. يرى بعض الخبراء هذه التقنيات السابقة على أنها في حين أنّ البعض الآخر يعتقد أنّ الذكاء الاصطناعي التوليدي، يجب أن يكون أكثر تعقيدًا عن النتائج التي يمكن أن تقدمها تلك التقنيات السابقة.
التباين مع تعلُّم الآلة القائم على التوقّعات.
GPT (التحويل التوليدي المُدرَّب مسبقًا)
مجموعة تستند إلى Transformer نماذج لغوية كبيرة طورتها شركة OpenAI:
يمكن تطبيق صيغ علامات "علامة ناشر Google" على العديد من الوسائط، بما في ذلك:
- إنشاء الصور (مثل ImageGPT)
- تحويل النص إلى صورة (على سبيل المثال، DALL-E.
H
الهلوسة
إنتاج إخراج يبدو منطقيًا ولكنه غير صحيح في الواقع من خلال الذكاء الاصطناعي التوليدي الذي يسعى إلى تحقيق بتأكيد حول العالم الحقيقي. على سبيل المثال، نموذج من الذكاء الاصطناعي التوليدي يدّعي أنّ باراك أوباما توفي في العام 1865. هلوسة.
I
التعلّم ضمن السياق
مرادف لطلب من بضع لقطات.
L
نموذج لغوي مخصَّص لتطبيقات المحادثة (LaMDA)
نموذج يستند إلى Transformer نموذج لغوي كبير طوّرته Google مدرَّبة على مجموعة بيانات حوارية كبيرة يمكنها إنشاء ردود واقعية
LaMDA: محادثتنا الرائدة التقنية نظرة عامة.
نموذج لغوي
نموذج يقدِّر احتمالية رمز مميّز أو سلسلة من الرموز المميزة تحدث في تسلسل أطول
نموذج لغوي كبير
مصطلح غير رسمي بدون تعريف دقيق وعادةً ما يعني النموذج اللغوي الذي يحتوي على عدد كبير من المَعلمات: تحتوي بعض النماذج اللغوية الكبيرة على أكثر من 100 مليار معلَمة.
المساحة الكامنة
مرادف لـ تضمين مساحة.
LLM
اختصار نموذج لغوي كبير.
LoRA
يشير إلى اختصار قابلية التكيّف المنخفضة الترتيب.
قابلية التكيف منخفض الترتيب (LoRA)
خوارزمية لأداء ضبط كفاءة المعلَمات الألحان الموسيقية فقط مجموعة فرعية من مَعلمات النماذج اللغوية الكبيرة توفر LoRA المزايا التالية:
- الضبط الدقيق بشكل أسرع من الأساليب التي تتطلب ضبط جميع سمات النموذج المعلَمات.
- خفض التكلفة الحاسوبية للاستنتاج في نموذج دقيق.
يحافظ النموذج الذي يتم ضبطه على LoRA على جودة توقعاته أو يحسّنها.
تتيح LoRA إمكانية إنشاء إصدارات متخصصة متعددة من النموذج.
M
نموذج لغوي مقنَّع
نموذج لغوي يتنبأ باحتمالية الرموز المميزة المرشحة لملء الفراغات في تسلسل. على سبيل المثال، يمكن لنموذج لغوي مقنع حساب احتمالات الكلمات المرشّحة. لاستبدال التسطير في الجملة التالية:
عاد من يرتدي القبّعة ____.
تستخدم المؤلفات عادةً السلسلة "MASK" بدلاً من تسطير. على سبيل المثال:
The "MASK" مرتديًا القبّعة وعدتُ.
معظم النماذج اللغوية الحديثة المقنَّعة ثنائية الاتجاه.
التعلّم الوصفي
يشير ذلك المصطلح إلى مجموعة فرعية من تعلُّم الآلة تكتشف خوارزمية تعلُّم أو تحسِّنها. ويمكن أن يهدف نظام التعلم الوصفي أيضًا إلى تدريب نموذج لتعلم كيفية مهمة من كمية صغيرة من البيانات أو من الخبرة المكتسبة في المهام السابقة. بوجهٍ عام، تحاول خوارزميات التعلّم الوصفي تحقيق ما يلي:
- تحسين أو تعلم الميزات الهندسية يدويًا (مثل أداة التهيئة أو محسّن).
- أن تكون أكثر فعالية من حيث البيانات والحوسبة.
- تحسين التعميم.
ترتبط التعلّم الإحصائي بطريقة تعلُّم قليلة.
الأسلوب
فئة بيانات عالية المستوى. على سبيل المثال، الأرقام والنصوص والصور ومقاطع الفيديو الصوت خمسة وسائط مختلفة.
موازاة النموذج
طريقة للتدريب على التوسيع أو الاستنتاج الذي يضع أجزاء مختلفة من واحد model على أجهزة مختلفة. موازاة النموذج لتمكين النماذج الكبيرة جدًا بحيث لا تناسب جهاز واحد.
لتنفيذ موازاة النموذج، يقوم النظام عادةً بما يلي:
- أجزاء (تقسيم) النموذج إلى أجزاء أصغر.
- يوزع تدريب تلك الأجزاء الأصغر على معالِجات متعددة. يدرّب كل معالِج جزءه الخاص من النموذج.
- تجمع النتائج لإنشاء نموذج واحد.
يؤدي التوازي في النموذج إلى إبطاء التدريب.
راجِع أيضًا موازية البيانات.
الاهتمام الذاتي المتعدّد الرؤوس
تمثّل هذه السمة إضافة تنبيه ذاتي تطبّق آلية الانتباه الذاتي عدة مرات لكل موضع في تسلسل الإدخال.
قدّمت المحوّلات ميزة الانتباه الذاتي المتعدّد الرؤوس.
نموذج متعدد الوسائط
يشير هذا المصطلح إلى نموذج تشتمل مدخلاته و/أو مخرجاته على أكثر من عنصر. الطريقة: فعلى سبيل المثال، ضع في الاعتبار نموذجًا يأخذ كلاً من صورة وشرح نصي (طريقتان) كـ ميزات نتيجة تشير إلى مدى ملاءمة التسمية التوضيحية النصية للصورة. إذًا، مدخلات هذا النموذج متعددة الوسائط والمخرجات أحادية الوضع.
N
فهم اللغات الطبيعية
تحديد نوايا المستخدم استنادًا إلى ما كتبه أو قاله. على سبيل المثال، يستخدم محرك البحث فهم اللغة الطبيعية تحديد ما يبحث عنه المستخدم استنادًا إلى ما كتبه أو قاله.
الحرف اللاتيني n جرام
يشير ذلك المصطلح إلى تسلسل مُرتب من الكلمات N. على سبيل المثال، يساوي truly madly 2 غرام. لأنّ ذي صلة، فإن تأثير ماجنون حقيقي يختلف عن 2 غرام عن كلمة فعل ذلك بجنون.
N | الأسماء لهذا النوع من أحرف N-gram | أمثلة |
---|---|---|
2 | بيجرام أو 2 غرام | الذهاب إلى، وتناول الغداء، وتناول العشاء |
3 | تريغرام أو 3 غرام | أكلت الكثير، وثلاثة فئران عمياء، وأجراس أجراس |
4 | 4 غرامات | اسير في الحديقة، وغبار مع رياح، يأكل الصبيّ العدس |
العديد من فهم اللغات الطبيعية تعتمد النماذج على N-grams للتنبؤ بالكلمة التالية التي سيكتبها المستخدم أو قولها. على سبيل المثال، لنفترض أنّ أحد المستخدمين كتب ثلاثة مربّعات. من المرجح أن يتنبأ أي نموذج NLU يستند إلى ثلاثية الجرامات بأن سيكتب المستخدم الفئران تاليًا.
قارِن بين جرامات N وكيس كلمات، وهي مجموعات الكلمات غير المرتبة.
فهم اللغات الطبيعية
اختصار اللغة الطبيعية الفهم.
O
مطالبة بلقطة واحدة
طلب يتضمن مثال يوضّح كيفية تنفيذ من المفترض أن يستجيب نموذج لغوي كبير. على سبيل المثال: يحتوي الطلب التالي على مثال واحد يوضح نموذجًا لغويًا كبيرًا كيف فيجب أن يجيب على استعلام.
أجزاء من طلب واحد | ملاحظات |
---|---|
ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن يجيب عليه النموذج اللغوي الكبير |
فرنسا: EUR | مثال واحد. |
الهند: | الاستعلام الفعلي. |
حدِّد أوجه التشابه والاختلاف بين المطالبة بلقطة واحدة والعبارات التالية:
P
توليف موفر للمعلَمات
مجموعة من الأساليب لضبط حجم حجم كبير نموذج لغوي مدرَّب مسبقًا (PLM) فعالية أكبر من الضبط الدقيق الكامل. مَعلمة فعّالة يؤدي ضبط عادةً إلى تحسين معلَمات أقل بكثير من الضبط دقيقًا، لكنها عادةً ما ينتج عنها نموذج لغوي كبير يقدم أداءً (أو تقريبًا كذلك) كنموذج لغوي كبير مبني من الضبط الدقيق.
تحديد أوجه الاختلاف والتشابه بين التوليف الفعّال بالمعلَمات مع:
يُعرف الضبط الفعال للمَعلمة أيضًا باسم الضبط الدقيق لكفاءة المَعلمة.
إعداد الممرات
يشير ذلك المصطلح إلى شكل من أشكال التوازي الذي يمثِّل فيه نموذج يتم تقسيم المعالجة إلى مراحل متتالية ويتم تنفيذ كل مرحلة على جهاز مختلف. وأثناء معالجة المرحلة دفعة واحدة، فإن المرحلة السابقة العمل على الدفعة التالية.
يمكنك الاطّلاع أيضًا على تدريب منظّم.
PLM
تمثّل هذه السمة اختصار نموذج لغوي مدرَّب مسبقًا.
ترميز موضعي
أسلوب لإضافة معلومات حول موضع الرمز المميز في تسلسل إلى تضمين الرمز المميز. تستخدم نماذج المحوِّلات البيانات الموضعية لتكوين فهم أفضل للعلاقة بين أجزاء مختلفة من التسلسل.
يستخدم التنفيذ الشائع للترميز الموضعي الدالة الجيبية. (على وجه التحديد، تُستخدم تردد الدالة الجيبية واتساعها المحدد من خلال موضع الرمز المميز في التسلسل). هذا الأسلوب يمكِّن نموذج المحول من تعلم التعامل مع أجزاء مختلفة من التسلسل بناءً على موضعها.
نموذج مدرَّب مسبقًا
إن النماذج أو مكونات النموذج (مثل متّجه تضمين) الذي سبق تدريبه. في بعض الأحيان، ستقوم بتغذية متجهات التضمين المدرّبة مسبقًا في الشبكة العصبونية. وفي أوقات أخرى، سيتدرب النموذج تضمين المتجهات نفسها بدلاً من الاعتماد على التضمينات المدرّبة مسبقًا.
يشير مصطلح نموذج لغوي مدرب مسبقًا إلى نموذج لغوي كبير تم اختباره التدريب المسبق.
التدريب المُسبَق
يشير ذلك المصطلح إلى التطبيق الأولي لنموذج على مجموعة بيانات كبيرة. بعض النماذج المدرَّبة مسبقًا هي عمالقة أذكياء ويجب عادةً تحسينها من خلال تدريب إضافي. على سبيل المثال، قد يقوم خبراء تعلُّم الآلة مسبقًا بتدريب نموذج لغوي كبير في مجموعة بيانات نصية ضخمة، مثل جميع الصفحات الإنجليزية في ويكيبيديا. بعد التدريب المسبق، النموذج الناتج قد يتم تحسينه من خلال أي مما يلي التقنيات:
إشعار
أي نص يتم إدخاله كإدخال في نموذج لغوي كبير لتشكيل النموذج للعمل بطريقة معينة. يمكن أن تكون المطالبات قصيرة مثل عبارة أو طويلة بشكل عشوائي (على سبيل المثال، نص رواية كامل). الطلبات تنقسم إلى فئات متعددة، بما في ذلك تلك المعروضة في الجدول التالي:
فئة الطلب | مثال | ملاحظات |
---|---|---|
السؤال | ما هي السرعة التي تطير بها الحمامة؟ | |
مدرسة تعليم | كتابة قصيدة مضحكة عن المواقع المنشأة بهدف عرض الإعلانات | رسالة تطلب من النموذج اللغوي الكبير تنفيذ إجراء. |
مثال | يجب ترجمة رمز Markdown إلى HTML. مثل:
Markdown: * عنصر قائمة HTML: <ul> <li>عنصر القائمة</li> </ul> |
الجملة الأولى في هذا المثال هي توجيه. بقية المطالبة هي المثال. |
الدور | شرح سبب استخدام خوارزمية انحدار التدرج في تدريب تعلُّم الآلة درجة الدكتوراه في الفيزياء | الجزء الأول من الجملة هو تعليمات؛ الْعِبَارَة "إلى درجة الدكتوراه في الفيزياء" هو جزء الدور. |
إدخال جزئي للنموذج لإكمال | يقيم رئيس وزراء المملكة المتحدة في | قد ينتهي طلب الإدخال الجزئي بشكل مفاجئ (كما يحدث في هذا المثال). أو تنتهي بشرطة سفلية. |
بإمكان نموذج الذكاء الاصطناعي التوليدي الردّ على طلب من خلال نص، والرمز والصور والتضمينات والفيديوهات...أي شيء تقريبًا.
التعلّم المستند إلى الطلب
إمكانية استخدام نماذج معيّنة تساعدها على التكيف سلوكه استجابةً للإدخال العشوائي للنص (الطلبات). في نموذج التعلم القائم على المطالبة النموذجي، يردّ نموذج لغوي كبير على طلب من خلال إنشاء النص. على سبيل المثال، لنفترض أنّ أحد المستخدمين أدخل الطلب التالي:
لخِّص قانون "نيوتن" الثالث للحركة.
إنّ النموذج القادر على التعلُّم المستند إلى الطلب غير مدرب بشكل خاص على الإجابة المطالبة السابقة. بدلاً من ذلك، فإن النموذج "يعرف" الكثير من الحقائق عن الفيزياء، والكثير عن قواعد اللغة العامة، والكثير عن الأمور التي تُشكل إجابات مفيدة. هذه المعرفة كافية لتقديم دراسة مفيدة (نأمل) معينة. ملاحظات بشرية إضافية ("كانت هذه الإجابة معقدة للغاية". يتيح السؤال "ما هو رد فعل؟" لبعض أنظمة التعلّم القائمة على الطلبات تدريجيًا تحسين فائدة إجاباتهم.
تصميم الطلب
هو مرادف لـ هندسة الطلبات.
هندسة الطلبات
فن إنشاء الطلبات للحصول على الردود المطلوبة من نموذج لغوي كبير يعالج فريق من المراجعين الطلب. الهندسة. تعد كتابة مطالبات جيدة التنظيم جزءًا أساسيًا من ضمان ردودًا مفيدة من نموذج لغوي كبير. تعتمد هندسة المطالبة على على عوامل عديدة، منها:
- إنّ مجموعة البيانات المستخدَمة لإجراء تدريب مسبق وربما تحسين النموذج اللغوي الكبير
- مَعلمة temperature ومَعلمات فك الترميز الأخرى التي التي يستخدمها النموذج لإنشاء الاستجابات.
عرض مقدمة حول تصميم الطلبات للحصول على المزيد من التفاصيل حول كتابة الطلبات المفيدة
تصميم الطلب هو مرادف لهندسة الطلبات.
توليف الطلبات
آلية ضبط فعّال للمَعلمات تتعلم "بادئة" يضيفه النظام إلى الطلب الفعلي
يتمثل أحد الاختلافات في توليف المطالبة - يُسمى أحيانًا ضبط البادئة - في أضِف البادئة في كل طبقة. في المقابل، يضبط معظم توليف الطلبات يضيف بادئة إلى طبقة الإدخال.
R
تشجيع الأدوار
جزء اختياري من الطلب الذي يحدّد شريحة جمهور مستهدفة للحصول على استجابة نموذج الذكاء الاصطناعي التوليدي. بدون دور طلب، فإن النموذج اللغوي الكبير يقدم إجابة قد تكون أو لا تكون مفيدة للشخص الذي يطرح الأسئلة. مع طلب دور ولغة كبيرة أن يجيب بها نموذج البيانات بطريقة أكثر ملاءمة وفائدة جمهور مستهدف محدد. على سبيل المثال، جزء مطالبة الدور مما يلي تظهر المطالبات بخط عريض:
- تلخيص هذه المقالة للحصول على درجة الدكتوراه في الاقتصاد.
- يُرجى وصف آلية عمل المد والجزر لطفل بعمر عشر سنوات.
- شرح الأزمة المالية لعام 2008 تحدّث كما تفعل مع طفل صغير، أو كلب جولدن ريتريفر
S
الانتباه الذاتي (تسمى أيضًا طبقة الانتباه الذاتي)
يشير هذا المصطلح إلى طبقة الشبكة العصبونية التي تحوّل سلسلة من التضمينات (مثل تضمينات الرمز المميّز) إلى تسلسل آخر من التضمينات كل عملية تضمين في تسلسل الإخراج هي تم إنشاؤها من خلال دمج المعلومات من عناصر تسلسل الإدخال من خلال آلية لفت الانتباه.
يشير الجزء النفسي من الانتباه بالذات إلى التسلسل الذي يعتزم الحضور نفسها وليس على سياق آخر. الانتباه الذاتي هو أحد أهم الوحدات الأساسية لـ المحولات وتستخدم بحث القاموس المصطلحات مثل "query" و"key" و"value".
تبدأ طبقة الانتباه الذاتي بتسلسل من تمثيلات الإدخال، واحد لكل كلمة. ويمكن أن يكون تمثيل الإدخال لإحدى الكلمات طريقة بسيطة التضمين. بالنسبة إلى كل كلمة في تسلسل إدخال، يتم ربط الشبكة درجات صلة الكلمة بكل عنصر في التسلسل الكامل الكلمات. تحدد نقاط مدى الصلة مدى صلة التمثيل النهائي للكلمة وتدمج تمثيلات للكلمات الأخرى.
على سبيل المثال، فكِّر في الجملة التالية:
لم يعبر الحيوان الشارع لأنّه كان مرهقًا جدًا.
يعد الرسم التوضيحي التالي (من أداة التحويل: بنية جديدة للشبكة العصبية في اللغة الفهم) نمط الانتباه الخاص بطبقة الانتباه الذاتي للضمير ، مع ظلام كل سطر للإشارة إلى مدى مساهمة كل كلمة في التمثيل:
تبرز طبقة الانتباه الذاتي الكلمات ذات الصلة بـ "هي". في هذه الدورة، الحالة، تعلّمت طبقة الانتباه تمييز الكلمات التي يمكن أن المشار إليه، مع تعيين أعلى وزن لـ حيوان.
لتسلسل من n الرموز المميزة، يحوّل الانتباه الذاتي التسلسل من التضمينات n مرات منفصلة، مرة في كل موضع في التسلسل.
يمكنك أيضًا الاطّلاع على سمة تنبيه و الاهتمام الذاتي من خلال عدة رؤوس.
تحليل الآراء
يمكن أن يؤدي استخدام الخوارزميات الإحصائية أو خوارزميات التعلم الآلي لتحديد هدف مجموعة الموقف العام - الإيجابي أو السلبي - تجاه خدمة أو منتج أو المؤسسة أو الموضوع. على سبيل المثال، استخدام فهم اللغة الطبيعية يمكن لخوارزمية إجراء تحليل الآراء حول الملاحظات النصية من دورة جامعية لتحديد الدرجة التي ينتقل بها الطلاب بشكل عام، لم تعجبهم الدورة أو لم تعجبهم.
مهمة تسلسل إلى تسلسل
مهمة تحوِّل تسلسل إدخال للرموز المميّزة إلى مُخرجات تسلسل الرموز المميزة. فعلى سبيل المثال، هناك نوعان شائعان من التسلسل إلى التسلسل المهام هي:
- المترجمون:
- نموذج تسلسل إدخال: "أحبك".
- نموذج تسلسل الإخراج: "Je t'aime".
- الإجابة على السؤال:
- نموذج تسلسل إدخال: "هل أحتاج إلى سيارتي في دبي؟"
- نموذج تسلسل الإخراج: "لا. يُرجى إبقاء سيارتك في المنزل".
skip-gram
n-gram الذي قد يحذف (أو "يتخطى") كلمات من الكلمة الأصلية السياق، مما يعني أن الكلمات N قد لا تكون متجاورة في الأصل. المزيد وعلى وجه التحديد، يمكن استخدام "k-skip-n-gram" هو ن غرام والذي قد يحتوي على ما يصل إلى ألف كلمة تم تخطيها.
على سبيل المثال: "الثعلب البني السريع" يمثل الغرامَين التاليَين:
- "السريع"
- "بني سريع"
- "ثعلب بني"
"1-تخطي-2 غرام" هو عبارة عن كلمتَين لا يزيد عددهما عن كلمة واحدة. ومن ثم، فإن "الثعلب البني السريع" له الغرام التالي الذي يتجاوز 2 غرام:
- "البني"
- "ثعلب سريع"
بالإضافة إلى ذلك، يُعَدّ الـ 2 غرامًا أيضًا 1 غرام من كل غرام، يمكن تخطّي كلمة واحدة أو أكثر.
تعد مخططات التخطي مفيدة لفهم المزيد من السياق المحيط للكلمة. في المثال، "ثعلب" بشكل مباشر في مجموعة 1-تخطي 2 غرام، ولكن ليس في مجموعة 2 غرام.
تدريب الغرامات في التدريب نماذج تضمين الكلمات.
الضبط السلس للطلبات
تقنية لضبط نموذج لغوي كبير لمهمة معينة، دون استغراق موارد كثيفة الضبط الدقيق: وبدلاً من إعادة تدريب جميع القيم المرجحة في النموذج، ضبط الطلب الأولي من خلال تعديل الطلب تلقائيًا لتحقيق الهدف نفسه.
عند الحصول على طلب نصي، ضبط الطلب بشكل سلس تُلحِق عادةً عمليات تضمين إضافية للرمز المميّز في الطلب وتستخدم الانتشار العكسي لتحسين الإدخال.
"صعب" يتضمن رموزًا مميزة فعلية بدلاً من تضمينات الرموز المميزة.
خاصية متناثرة
ميزة تكون قيمها في الغالب صفر أو فارغة. على سبيل المثال، العنصر الذي يحتوي على قيمة 1 مفردة ومليون 0 هو متناثر. في المقابل، الميزة المكثفة لها قيم ليست صفرًا أو فارغة في الغالب.
في تقنية تعلُّم الآلة، هناك عدد مذهل من الميزات يكمن في الخصائص المتفرقة. عادةً ما تكون الخصائص الفئوية ميزات متفرقة. فعلى سبيل المثال، من بين 300 نوع من أنواع الأشجار في إحدى الغابة، هناك مثال واحد شجرة القيقب فقط. أو من بين الملايين الفيديوهات المحتملة في مكتبة الفيديوهات، قد يوضّح مثال واحد و"الدار البيضاء" فقط.
وفي أي نموذج، يتم تمثيل الخصائص المتفرقة باستخدام ترميز واحد فعال: فإذا كان الترميز الأحادي كبيرًا، يمكنك وضع طبقة تضمين أعلى ترميز واحد فعال لزيادة الكفاءة.
تمثيل متناثر
تخزين مواضع العناصر غير الصفرية فقط في عنصر متفرق.
على سبيل المثال، لنفترض أن هناك خاصية فئوية تسمى species
تحدد الـ 36
أنواع الأشجار في غابة معينة. وافترض أيضًا أن كل
example يحدد هذا النوع نوعًا واحدًا فقط.
يمكنك استخدام متجه واحد فعال لتمثيل أنواع الأشجار في كل مثال.
قد يحتوي الخط المتجه الوحيد على 1
مفرد (ليمثل
نوع الأشجار المعيّن في هذا المثال) و35 0
(لتمثيل
35 نوعًا من الأشجار ليس في هذا المثال). لذا، فإن التمثيل الوحيد
من maple
قد يبدو كما يلي:
وبدلاً من ذلك، يحدد التمثيل المتنافر موضع
لأنواع معينة. إذا كان maple
في الموضع 24، يكون التمثيل المتناثر
من maple
سيكون ببساطة:
24
لاحظ أن التمثيل المتناثر أكثر إيجازًا بكثير من واحد فعال التمثيل المناسب.
تدريب مرحلي
يشير ذلك المصطلح إلى تكتيك لتدريب نموذج في سلسلة من المراحل المنفصلة. يمكن أن يكون الهدف إما لتسريع عملية التدريب أو لتحقيق جودة نموذج أفضل.
في ما يلي صورة توضيحية لنهج التكديس التدريجي:
- المرحلة 1 تحتوي على 3 طبقات مخفية، بينما تحتوي المرحلة الثانية على 6 طبقات مخفية، المرحلة 3 تحتوي على 12 طبقة مخفية.
- تبدأ المرحلة 2 التدريب بأوزان الأوزان التي تم تعلمها في الطبقات الثلاث المخفية المرحلة 1. تبدأ المرحلة 3 التدريب بالأوزان التي تم تعلمها في الطبقات المخفية من المرحلة 2.
راجِع أيضًا التسلسل.
رمز مميّز للكلمة الفرعية
في النماذج اللغوية، يكون الرمز المميّز السلسلة الفرعية للكلمة، والتي قد تكون الكلمة بأكملها.
على سبيل المثال، يمكن أن تشير كلمة مثل "itemize" إلى أجزاء "العنصر" (كلمة جذر) و"ize" (لاحقة)، يتم تمثيل كل منها الرمز المميز. يسمح تقسيم الكلمات غير المألوفة إلى مثل هذه الكلمات، التي تسمى كلمات فرعية، نماذج لغوية للعمل على الأجزاء المكونة الأكثر شيوعًا للكلمة، مثل البادئات واللاحقات.
وبالعكس، يمكن استخدام الكلمات الشائعة مثل "سيذهب" قد لا يتم تقسيمها وقد ويتم تمثيلها برمز مميز واحد.
T
T5
تحويل النص إلى نص نقل التعلّم النموذج من تقديم تكنولوجيات الذكاء الاصطناعي من Google في 2020 T5 هو نموذج برنامج ترميز-لبرنامج فك الترميز استنادًا إلى بنية Transformer، مدرَّبة على قاعدة كبيرة جدًا مجموعة البيانات الأصلية. وهي فعالة في مجموعة متنوعة من مهام معالجة اللغات الطبيعية، مثل إنشاء النصوص وترجمة اللغات والإجابة عن الأسئلة بطريقة حوارية.
اشتق اسم T5 من الأحرف الخمسة في "تحويل النص إلى نص".
T5X
يشير هذا المصطلح إلى إطار عمل مفتوح المصدر لتعلُّم الآلة تم تصميمه. لبناء وتدريب معالجة لغة طبيعية على نطاق واسع (NLP). يتم تنفيذ T5 على قاعدة رموز T5X (وهو تم إنشاؤه على JAX وFlax).
درجة الحرارة
المعلَمة الفائقة التي تتحكّم في درجة التوزيع العشوائي لمخرج النموذج. تؤدي درجات الحرارة الأعلى إلى نتائج عشوائية أكثر، بينما ينتج عن درجات الحرارة المنخفضة نتائج عشوائية أقل.
يعتمد اختيار أفضل درجة حرارة على التطبيق المحدد الخصائص المفضلة لمخرج النموذج. على سبيل المثال، قد أن ترفع درجة الحرارة عند إنشاء تطبيق تؤدي إلى إنشاء مخرجات إبداعية. وعلى العكس، قد تعمل على خفض درجة حرارة عند إنشاء نموذج يصنف الصور أو النصوص من أجل تحسين دقة النموذج واتساقه.
غالبًا ما تُستخدَم درجة الحرارة مع السمة softmax.
امتداد النص
نطاق فهرس الصفيف المرتبط بقسم فرعي معيّن من سلسلة نصية.
على سبيل المثال، تشغل الكلمة good
في سلسلة بايثون s="Be good now"
.
امتداد النص من 3 إلى 6.
رمز مميز
في النموذج اللغوي، وهو الوحدة الذرية التي يستخدمها النموذج التدريب عليها وعمل التنبؤات عليها. الرمز المميز هو عادةً أحد التالي:
- كلمة — على سبيل المثال، عبارة "كلاب مثل القطط" يتكون من ثلاث كلمات الرموز المميزة: "كلاب" و"أعجبني" و"قطط".
- حرف — على سبيل المثال، عبارة "سمكة دراجة" يتكون من تسعة الرموز المميزة للأحرف. (لاحظ أن المساحة الفارغة يتم احتسابها كأحد الرموز المميزة.)
- الكلمات الفرعية - والتي يمكن أن تكون فيها الكلمة الواحدة رمزًا مميزًا واحدًا أو عدة رموز مميزة. تتألف الكلمة الفرعية من كلمة جذر أو بادئة أو لاحقة. على سبيل المثال: النموذج اللغوي الذي يستخدم كلمات فرعية كرموز مميّزة قد يعرض كلمة "كلاب" كرمزين مميزين (كلمة الجذر "dog" ولاحقة الجمع "s"). نفس الشيء نموذج لغوي قد يعرض الكلمة المفردة "أطول" وكلمتين فرعيتين ( كلمة الجذر "طويل" واللاحقة "er").
وفي النطاقات خارج النماذج اللغوية، يمكن أن تمثل الرموز المميزة أنواعًا أخرى من فقط. على سبيل المثال، في الرؤية الحاسوبية، قد يكون الرمز المميز مجموعة فرعية لصورة.
المحوّل
يشير هذا المصطلح إلى بنية للشبكة العصبونية التي تم تطويرها في Google. على آليات الانتباه الذاتي لتحويل تسلسل تضمينات الإدخال في تسلسل للمخرجات التضمينات بدون الاعتماد على عمليات الدمج أو الشبكات العصبونية المتكررة. يمكن أن يكون المحوِّل ويُنظر إليه على أنه حزمة من طبقات الانتباه الذاتي.
يمكن أن يتضمن المحوِّل أيًا مما يلي:
- برنامج ترميز
- برنامج فك ترميز
- كل من برنامج الترميز وفك الترميز
يحوّل برنامج الترميز تسلسلاً من التضمينات إلى تسلسل جديد من نفس الطول. يشتمل برنامج التشفير على عدد N من الطبقات المتطابقة، تحتوي كل منها على اثنين والطبقات الفرعية. يتم تطبيق هاتين الطبقتين الفرعيتين في كل موضع من موضع الإدخال تسلسل تضمين، وتحويل كل عنصر من عناصر التسلسل إلى عنصر جديد التضمين. وتجمع الطبقة الفرعية الأولى لبرنامج الترميز المعلومات من تسلسل الإدخال. وتعمل الطبقة الفرعية الثانية في برنامج الترميز على تحويل القيم المعلومات في تضمين مخرجات.
يحوّل برنامج فك الترميز سلسلة من تضمينات الإدخالات إلى تسلسل تضمينات الإخراج، وربما ذات طول مختلف. يتضمن برنامج فك الترميز أيضًا N من الطبقات المتماثلة بها ثلاث طبقات فرعية، اثنتان منها تشبهان الطبقات الفرعية لبرنامج الترميز تأخذ الطبقة الفرعية الثالثة في برنامج فك الترميز المخرجات برنامج الترميز ويطبّق آلية الانتباه الذاتي لجمع معلومات منه.
مشاركة المدونة Transformer: بنية جديدة للشبكة العصبية في اللغة فهم مقدمة جيدة عن المحولات.
مثلث
ن غرام يكون فيه N=3.
U
أحادي الاتجاه
يشير ذلك المصطلح إلى نظام يقيّم فقط النص الذي يسبق قسمًا مستهدَفًا من النص. وفي المقابل، يقيّم النظام الثنائي الاتجاه كلاً من نص يسبق ويتبع قسمًا مستهدَفًا من النص. اطّلِع على ثنائي الاتجاه لمعرفة المزيد من التفاصيل.
نموذج لغوي أحادي الاتجاه
نموذج لغوي يعتمد احتمالاته على الرموز المميّزة التي تظهر قبل الرموز المميّزة المستهدَفة، وليس بعد التباين مع النموذج اللغوي الثنائي الاتجاه.
V
برنامج الترميز التلقائي المتغير (VAE)
نوع من برامج الترميز التلقائي التي تستفيد من التباين بين المدخلات والمخرجات لإنشاء نُسخ معدلة من المدخلات. تُعدّ برامج الترميز التلقائي المتنوّعة مفيدة للذكاء الاصطناعي التوليدي.
تعتمد قيم VAE على الاستنتاج المختلف: وهو أسلوب لتقدير معاملات نموذج الاحتمال.
واط
تضمين الكلمات
يمثل كل كلمة في مجموعة كلمات داخل تضمين المتجه أي، تمثيل كل كلمة متجه لقيم النقطة العائمة بين 0.0 و1.0. كلمات متشابهة المعاني لها تمثيلات أكثر تشابهًا من الكلمات ذات المعاني المختلفة. على سبيل المثال، سيكون لكل من الجزر والكرفس والخيار فوائد ممثلات متشابهة، والتي قد تكون مختلفة جدًا عن الرسومات عن الطائرة والنظارات الشمسية ومعجون الأسنان.
Z
طلب بدون لقطة
طلب لا يقدّم لك مثالاً على الطريقة التي تريد اتّباعها نموذج لغوي كبير للاستجابة. على سبيل المثال:
أجزاء من طلب واحد | ملاحظات |
---|---|
ما هي العملة الرسمية للبلد المحدّد؟ | السؤال الذي تريد أن يجيب عليه النموذج اللغوي الكبير |
الهند: | الاستعلام الفعلي. |
وقد يستجيب النموذج اللغوي الكبير بأي مما يلي:
- روبية
- INR
- ر.ه.
- الروبية الهندية
- الروبية
- الروبية الهندية
كل الإجابات صحيحة، على الرغم من أنك قد تفضل تنسيقًا معينًا.
حدِّد أوجه التشابه والاختلاف بين الطلب بدون لقطة مع المصطلحات التالية: