مقدمه ای بر مدل های زبان بزرگ

تازه به مدل های زبانی یا مدل های زبان بزرگ؟ منابع زیر را بررسی کنید.

مدل زبان چیست؟

مدل زبان یک مدل یادگیری ماشینی است که هدف آن پیش‌بینی و تولید زبان قابل قبول است. برای مثال تکمیل خودکار یک مدل زبان است.

این مدل ها با تخمین احتمال وقوع یک توکن یا دنباله ای از توکن ها در یک دنباله طولانی تر از توکن ها کار می کنند. جمله زیر را در نظر بگیرید:

When I hear rain on my roof, I _______ in my kitchen.

اگر فرض کنید که نشانه یک کلمه است، یک مدل زبان احتمال کلمات یا دنباله‌ای از کلمات را برای جایگزینی آن زیرخط تعیین می‌کند. به عنوان مثال، یک مدل زبان ممکن است احتمالات زیر را تعیین کند:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

یک "توالی نشانه ها" می تواند یک جمله کامل یا یک سری جملات باشد. یعنی یک مدل زبانی می‌تواند احتمال کل جملات یا بلوک‌های متن مختلف را محاسبه کند.

تخمین احتمال موارد بعدی در یک دنباله برای همه نوع کار مفید است: تولید متن، ترجمه زبان ها، و پاسخ به سؤالات، به نام چند.

مدل زبان بزرگ چیست؟

مدل سازی زبان انسانی در مقیاس یک تلاش بسیار پیچیده و نیازمند منابع است. مسیر دستیابی به قابلیت‌های کنونی مدل‌های زبانی و مدل‌های زبانی بزرگ چندین دهه را در برگرفته است.

همانطور که مدل ها بزرگتر و بزرگتر ساخته می شوند، پیچیدگی و کارایی آنها افزایش می یابد. مدل‌های زبان اولیه می‌توانستند احتمال یک کلمه را پیش‌بینی کنند. مدل های مدرن زبان بزرگ می توانند احتمال جملات، پاراگراف ها یا حتی کل اسناد را پیش بینی کنند.

اندازه و توانایی مدل‌های زبان در چند سال گذشته با افزایش حافظه رایانه، اندازه مجموعه داده‌ها و قدرت پردازش افزایش یافته است و تکنیک‌های مؤثرتری برای مدل‌سازی دنباله‌های متن طولانی‌تر توسعه می‌یابد.

بزرگی چقدر است؟

تعریف فازی است، اما "بزرگ" برای توصیف BERT (پارامترهای 110M) و همچنین PalM 2 (تا پارامترهای 340B) استفاده شده است.

پارامترها وزن هایی هستند که مدل در طول تمرین یاد گرفته و برای پیش بینی نشانه بعدی در دنباله استفاده می شود. "Large" می تواند به تعداد پارامترهای مدل یا گاهی اوقات تعداد کلمات در مجموعه داده اشاره داشته باشد.

ترانسفورماتورها

یکی از پیشرفت‌های کلیدی در مدل‌سازی زبان، معرفی Transformers در سال 2017 بود، معماری طراحی شده بر اساس ایده توجه . این امکان پردازش توالی‌های طولانی‌تر را با تمرکز بر مهم‌ترین بخش ورودی، حل مشکلات حافظه که در مدل‌های قبلی با آن مواجه می‌شد، فراهم کرد.

ترانسفورماتورها معماری پیشرفته‌ای برای طیف گسترده‌ای از برنامه‌های کاربردی مدل زبان، مانند مترجم‌ها هستند.

اگر ورودی "من سگ خوبی هستم" باشد. ، یک مترجم مبتنی بر ترانسفورماتور آن ورودی را به خروجی "Je suis un bon chien" تبدیل می کند. ، که همان جمله ای است که به فرانسوی ترجمه شده است.

ترانسفورماتورهای کامل از یک رمزگذار و یک رمزگشا تشکیل شده اند. یک رمزگذار متن ورودی را به یک نمایش میانی و یک رمزگشا آن نمایش میانی را به متن مفید تبدیل می کند.

توجه به خود

ترانسفورماتورها به شدت بر مفهومی به نام توجه به خود متکی هستند. بخش خود توجه به خود به تمرکز "خود محور" هر نشانه در یک پیکره اشاره دارد. در واقع، از طرف هر نشانه ورودی، توجه به خود می پرسد: "هر نشانه ورودی دیگر چقدر برای من مهم است؟" برای ساده کردن مسائل، فرض می کنیم که هر نشانه یک کلمه و متن کامل یک جمله است. جمله زیر را در نظر بگیرید:

حیوان به دلیل خستگی زیاد از خیابان عبور نکرد.

در جمله قبل 11 کلمه وجود دارد، بنابراین هر یک از 11 کلمه به ده کلمه دیگر توجه می کنند و متحیر می شوند که هر یک از آن ده کلمه چقدر برای آنها اهمیت دارد. به عنوان مثال، توجه کنید که جمله حاوی ضمیر it است . ضمایر اغلب مبهم هستند. ضمیر آن همیشه به اسم اخیر اشاره دارد، اما در جمله مثال، به کدام اسم اخیر اشاره دارد: حیوان یا خیابان؟

مکانیسم توجه به خود، ارتباط هر کلمه نزدیک به ضمیر آن را تعیین می کند.

موارد استفاده برای LLM چیست؟

LLM ها در وظیفه ای که برای آن ساخته شده اند، یعنی تولید معقول ترین متن در پاسخ به یک ورودی، بسیار موثر هستند. آنها حتی شروع به نشان دادن عملکرد قوی در سایر وظایف کرده اند. به عنوان مثال، خلاصه نویسی، پاسخ به سؤال و طبقه بندی متن. به اینها توانایی های اضطراری می گویند. LLM ها حتی می توانند برخی از مسائل ریاضی را حل کنند و کد بنویسند (البته توصیه می شود کار آنها را بررسی کنید).

LLM ها در تقلید از الگوهای گفتار انسان عالی هستند. در میان چیزهای دیگر، آنها در ترکیب اطلاعات با سبک ها و لحن های مختلف عالی هستند.

با این حال، LLM ها می توانند اجزای مدل هایی باشند که کاری بیش از تولید متن دارند. LLMهای اخیر برای ساخت آشکارسازهای احساسات، طبقه‌بندی‌کننده‌های سمیت و تولید شرح تصاویر استفاده شده‌اند.

ملاحظات LLM

مدل های به این بزرگی خالی از اشکال نیستند.

بزرگترین LLM ها گران هستند. آموزش آنها ممکن است ماهها طول بکشد و در نتیجه منابع زیادی را مصرف کنند.

آنها همچنین معمولاً می توانند برای کارهای دیگر تغییر کاربری دهند، یک روکش نقره ای ارزشمند.

مدل های آموزشی با بیش از یک تریلیون پارامتر چالش های مهندسی را ایجاد می کند. زیرساخت های ویژه و تکنیک های برنامه نویسی برای هماهنگ کردن جریان به تراشه ها و بازگشت دوباره مورد نیاز است.

راه هایی برای کاهش هزینه های این مدل های بزرگ وجود دارد. دو رویکرد استنتاج آفلاین و تقطیر است.

تعصب می تواند در مدل های بسیار بزرگ مشکل ساز باشد و باید در آموزش و استقرار در نظر گرفته شود.

از آنجایی که این مدل‌ها بر روی زبان انسان آموزش داده می‌شوند، این می‌تواند مسائل اخلاقی بالقوه متعددی را مطرح کند، از جمله استفاده نادرست از زبان، و تعصب در نژاد، جنسیت، مذهب و موارد دیگر.

باید واضح باشد که از آنجایی که این مدل‌ها به بزرگ‌تر شدن و عملکرد بهتر ادامه می‌دهند، نیاز به کوشا بودن در مورد درک و کاهش معایب آنها وجود دارد. درباره رویکرد Google برای هوش مصنوعی مسئول بیشتر بدانید.

در مورد LLM بیشتر بدانید

علاقه مند به معرفی عمیق تر مدل های زبان بزرگ هستید؟ ماژول جدید مدل های بزرگ زبان را در دوره Crash Learning Machine بررسی کنید.