مدل های زبان بزرگ

مدل زبان چیست؟

یک مدل زبان احتمال وقوع یک توکن یا دنباله ای از نشانه ها را در یک دنباله طولانی تر از نشانه ها تخمین می زند. یک نشانه می تواند یک کلمه، یک زیرکلمه (زیر مجموعه یک کلمه) یا حتی یک کاراکتر باشد.

جمله زیر و نشانه(هایی) که ممکن است آن را کامل کنند را در نظر بگیرید:

When I hear rain on my roof, I _______ in my kitchen.

یک مدل زبان، احتمال توکن‌ها یا دنباله‌ای از نشانه‌ها را برای تکمیل آن جای خالی تعیین می‌کند. به عنوان مثال، جدول احتمال زیر برخی از نشانه های ممکن و احتمالات آنها را مشخص می کند:

احتمال توکن(ها)
9.4٪ سوپ بپز
5.2٪ یک کتری را گرم کنید
3.6٪ خفه کردن
2.5٪ چرت زدن
2.2٪ استراحت کنید

در برخی موقعیت‌ها، توالی نشانه‌ها می‌تواند یک جمله، پاراگراف یا حتی یک مقاله کامل باشد.

یک برنامه کاربردی می تواند از جدول احتمال برای پیش بینی استفاده کند. پیش‌بینی ممکن است بالاترین احتمال (مثلاً «سوپ پختن») یا انتخاب تصادفی از نشانه‌هایی باشد که احتمال بیشتری از یک آستانه خاص دارند.

تخمین احتمال چیزی که در یک دنباله متنی جای خالی را پر می کند را می توان به کارهای پیچیده تر، از جمله:

  • تولید متن
  • ترجمه متن از یک زبان به زبان دیگر.
  • جمع بندی اسناد

با مدل‌سازی الگوهای آماری نشانه‌ها، مدل‌های زبان مدرن بازنمایی‌های درونی بسیار قدرتمندی از زبان ایجاد می‌کنند و می‌توانند زبان قابل قبولی تولید کنند.

مدل های زبان N-gram

N-gram ها دنباله های مرتبی از کلمات هستند که برای ساخت مدل های زبان استفاده می شوند، که در آن N تعداد کلمات در دنباله است. به عنوان مثال، هنگامی که N 2 باشد، N-گرم یک 2 گرم (یا یک بیگرم ) نامیده می شود. وقتی N 5 باشد، N-گرم 5 گرم نامیده می شود. با توجه به عبارت زیر در یک سند آموزشی:

you are very nice

2 گرم حاصل به شرح زیر است:

  • شما هستید
  • بسیار هستند
  • بسیار زیبا

هنگامی که N 3 باشد، N-گرم 3 گرم (یا سه گرم ) نامیده می شود. با توجه به همان عبارت، 3 گرم حاصل به صورت زیر است:

  • تو خیلی
  • بسیار خوب هستند

با در نظر گرفتن دو کلمه به عنوان ورودی، یک مدل زبان بر اساس 3 گرم می تواند احتمال کلمه سوم را پیش بینی کند. به عنوان مثال، با توجه به دو کلمه زیر:

orange is

یک مدل زبان تمام 3 گرم های مختلف مشتق شده از مجموعه آموزشی خود را که با orange is شروع می شود بررسی می کند تا محتمل ترین کلمه سوم را تعیین کند. صدها 3 گرم می تواند با دو کلمه orange is شروع شود، اما شما می توانید فقط روی دو احتمال زیر تمرکز کنید:

orange is ripe
orange is cheerful

احتمال اول ( orange is ripe ) در مورد میوه نارنجی است، در حالی که احتمال دوم ( orange is cheerful ) در مورد رنگ نارنجی است.

زمینه

انسان ها می توانند زمینه های نسبتا طولانی را حفظ کنند. هنگام تماشای عمل 3 یک نمایشنامه، دانش شخصیت های معرفی شده در قانون 1 را حفظ می کنید. به طور مشابه، خط پانچ یک شوخی طولانی شما را می خنداند زیرا می توانید زمینه را از تنظیم جوک به خاطر بسپارید.

در مدل های زبان، زمینه اطلاعات مفیدی قبل یا بعد از نشانه هدف است. زمینه می تواند به مدل زبانی کمک کند تا تعیین کند که «نارنجی» به یک مرکبات اشاره دارد یا یک رنگ.

زمینه می تواند به مدل زبان کمک کند تا پیش بینی های بهتری داشته باشد، اما آیا 3 گرم زمینه کافی را فراهم می کند؟ متأسفانه، تنها زمینه ای که یک 3 گرم ارائه می دهد، دو کلمه اول است. برای مثال، دو کلمه orange is زمینه کافی برای مدل زبانی برای پیش‌بینی کلمه سوم فراهم نمی‌کند. به دلیل نداشتن زمینه، مدل های زبانی مبتنی بر 3 گرم اشتباهات زیادی را مرتکب می شوند.

N-گرم های بلندتر مطمئنا زمینه بیشتری را نسبت به N-gram های کوتاه تر فراهم می کند. با این حال، با رشد N، وقوع نسبی هر نمونه کاهش می یابد. وقتی N بسیار بزرگ می شود، مدل زبان معمولاً تنها یک نمونه از هر رخداد N نشانه دارد، که برای پیش بینی نشانه هدف چندان مفید نیست.

شبکه های عصبی مکرر

شبکه های عصبی مکرر زمینه بیشتری را نسبت به N-gram فراهم می کنند. شبکه عصبی بازگشتی نوعی از شبکه عصبی است که بر روی دنباله ای از نشانه ها آموزش می بیند. به عنوان مثال، یک شبکه عصبی مکرر می تواند به تدریج بافت انتخاب شده از هر کلمه در یک جمله را بیاموزد (و بیاموزد که نادیده بگیرد). یک شبکه عصبی عودکننده بزرگ می‌تواند زمینه را از چند جمله به دست آورد.

اگرچه شبکه‌های عصبی بازگشتی، زمینه بیشتری را نسبت به N-gram یاد می‌گیرند، اما میزان مفیدی که شبکه‌های عصبی بازگشتی می‌توانند بشناسند، هنوز نسبتاً محدود است. شبکه های عصبی مکرر اطلاعات را «توکن به نشانه» ارزیابی می کنند. در مقابل، مدل‌های بزرگ زبان - موضوع بخش بعدی - می‌توانند کل زمینه را به یکباره ارزیابی کنند.

توجه داشته باشید که آموزش شبکه‌های عصبی مکرر برای زمینه‌های طولانی توسط مشکل گرادیان ناپدید محدود می‌شود.

تمرین: درک خود را بررسی کنید

کدام مدل زبان پیش بینی بهتری برای متن انگلیسی می کند؟
  • یک مدل زبان بر اساس 6 گرم
  • یک مدل زبان بر اساس 5 گرم
پاسخ به اندازه و تنوع مجموعه آموزشی بستگی دارد.
اگر مجموعه آموزشی شامل میلیون‌ها سند متنوع باشد، مدل مبتنی بر 6 گرم احتمالا بهتر از مدل مبتنی بر 5 گرم خواهد بود.
مدل زبان بر اساس 6 گرم.
این مدل زبان زمینه بیشتری دارد، اما اگر این مدل روی مدارک زیادی آموزش دیده باشد، بیشتر 6 گرم کمیاب خواهد بود.
مدل زبان بر اساس 5 گرم.
این مدل زبان زمینه کمتری دارد، بنابراین بعید است که از مدل زبان بر اساس 6 گرم بهتر عمل کند.