تازه به مدل های زبانی یا مدل های زبان بزرگ؟ منابع زیر را بررسی کنید.
مدل زبان چیست؟
مدل زبان یک مدل یادگیری ماشینی است که هدف آن پیشبینی و تولید زبان قابل قبول است. برای مثال تکمیل خودکار یک مدل زبان است.
این مدل ها با تخمین احتمال وقوع یک توکن یا دنباله ای از توکن ها در یک دنباله طولانی تر از توکن ها کار می کنند. جمله زیر را در نظر بگیرید:
When I hear rain on my roof, I _______ in my kitchen.
اگر فرض کنید که نشانه یک کلمه است، یک مدل زبان احتمال کلمات یا دنبالهای از کلمات را برای جایگزینی آن زیرخط تعیین میکند. به عنوان مثال، یک مدل زبان ممکن است احتمالات زیر را تعیین کند:
cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...
یک "توالی نشانه ها" می تواند یک جمله کامل یا یک سری جملات باشد. یعنی یک مدل زبانی میتواند احتمال کل جملات یا بلوکهای متن مختلف را محاسبه کند.
تخمین احتمال موارد بعدی در یک دنباله برای همه نوع کار مفید است: تولید متن، ترجمه زبان ها، و پاسخ به سؤالات، به نام چند.
مدل زبان بزرگ چیست؟
مدل سازی زبان انسانی در مقیاس یک تلاش بسیار پیچیده و نیازمند منابع است. مسیر دستیابی به قابلیتهای کنونی مدلهای زبانی و مدلهای زبانی بزرگ چندین دهه را در برگرفته است.
همانطور که مدل ها بزرگتر و بزرگتر ساخته می شوند، پیچیدگی و کارایی آنها افزایش می یابد. مدلهای زبان اولیه میتوانستند احتمال یک کلمه را پیشبینی کنند. مدل های مدرن زبان بزرگ می توانند احتمال جملات، پاراگراف ها یا حتی کل اسناد را پیش بینی کنند.
اندازه و توانایی مدلهای زبان در چند سال گذشته با افزایش حافظه رایانه، اندازه مجموعه دادهها و قدرت پردازش افزایش یافته است و تکنیکهای مؤثرتری برای مدلسازی دنبالههای متن طولانیتر توسعه مییابد.
بزرگی چقدر است؟
تعریف فازی است، اما "بزرگ" برای توصیف BERT (پارامترهای 110M) و همچنین PalM 2 (تا پارامترهای 340B) استفاده شده است.
پارامترها وزن هایی هستند که مدل در طول تمرین یاد گرفته و برای پیش بینی نشانه بعدی در دنباله استفاده می شود. "Large" می تواند به تعداد پارامترهای مدل یا گاهی اوقات تعداد کلمات در مجموعه داده اشاره داشته باشد.
ترانسفورماتورها
یکی از پیشرفتهای کلیدی در مدلسازی زبان، معرفی Transformers در سال 2017 بود، معماری طراحی شده بر اساس ایده توجه . این امکان پردازش توالیهای طولانیتر را با تمرکز بر مهمترین بخش ورودی، حل مشکلات حافظه که در مدلهای قبلی با آن مواجه میشد، فراهم کرد.
ترانسفورماتورها معماری پیشرفتهای برای طیف گستردهای از برنامههای کاربردی مدل زبان، مانند مترجمها هستند.
اگر ورودی "من سگ خوبی هستم" باشد. ، یک مترجم مبتنی بر ترانسفورماتور آن ورودی را به خروجی "Je suis un bon chien" تبدیل می کند. ، که همان جمله ای است که به فرانسوی ترجمه شده است.
ترانسفورماتورهای کامل از یک رمزگذار و یک رمزگشا تشکیل شده اند. یک رمزگذار متن ورودی را به یک نمایش میانی و یک رمزگشا آن نمایش میانی را به متن مفید تبدیل می کند.
توجه به خود
ترانسفورماتورها به شدت بر مفهومی به نام توجه به خود متکی هستند. بخش خود توجه به خود به تمرکز "خود محور" هر نشانه در یک پیکره اشاره دارد. در واقع، از طرف هر نشانه ورودی، توجه به خود می پرسد: "هر نشانه ورودی دیگر چقدر برای من مهم است؟" برای ساده کردن مسائل، فرض می کنیم که هر نشانه یک کلمه و متن کامل یک جمله است. جمله زیر را در نظر بگیرید:
حیوان به دلیل خستگی زیاد از خیابان عبور نکرد.
در جمله قبل 11 کلمه وجود دارد، بنابراین هر یک از 11 کلمه به ده کلمه دیگر توجه می کنند و متحیر می شوند که هر یک از آن ده کلمه چقدر برای آنها اهمیت دارد. به عنوان مثال، توجه کنید که جمله حاوی ضمیر it است . ضمایر اغلب مبهم هستند. ضمیر آن همیشه به اسم اخیر اشاره دارد، اما در جمله مثال، به کدام اسم اخیر اشاره دارد: حیوان یا خیابان؟
مکانیسم توجه به خود، ارتباط هر کلمه نزدیک به ضمیر آن را تعیین می کند.
موارد استفاده برای LLM چیست؟
LLM ها در وظیفه ای که برای آن ساخته شده اند، یعنی تولید معقول ترین متن در پاسخ به یک ورودی، بسیار موثر هستند. آنها حتی شروع به نشان دادن عملکرد قوی در سایر وظایف کرده اند. به عنوان مثال، خلاصه نویسی، پاسخ به سؤال و طبقه بندی متن. به اینها توانایی های اضطراری می گویند. LLM ها حتی می توانند برخی از مسائل ریاضی را حل کنند و کد بنویسند (البته توصیه می شود کار آنها را بررسی کنید).
LLM ها در تقلید از الگوهای گفتار انسان عالی هستند. در میان چیزهای دیگر، آنها در ترکیب اطلاعات با سبک ها و لحن های مختلف عالی هستند.
با این حال، LLM ها می توانند اجزای مدل هایی باشند که کاری بیش از تولید متن دارند. LLMهای اخیر برای ساخت آشکارسازهای احساسات، طبقهبندیکنندههای سمیت و تولید شرح تصاویر استفاده شدهاند.
ملاحظات LLM
مدل های به این بزرگی خالی از اشکال نیستند.
بزرگترین LLM ها گران هستند. آموزش آنها ممکن است ماهها طول بکشد و در نتیجه منابع زیادی را مصرف کنند.
آنها همچنین معمولاً می توانند برای کارهای دیگر تغییر کاربری دهند، یک روکش نقره ای ارزشمند.
مدل های آموزشی با بیش از یک تریلیون پارامتر چالش های مهندسی را ایجاد می کند. زیرساخت های ویژه و تکنیک های برنامه نویسی برای هماهنگ کردن جریان به تراشه ها و بازگشت دوباره مورد نیاز است.
راه هایی برای کاهش هزینه های این مدل های بزرگ وجود دارد. دو رویکرد استنتاج آفلاین و تقطیر است.
تعصب می تواند در مدل های بسیار بزرگ مشکل ساز باشد و باید در آموزش و استقرار در نظر گرفته شود.
از آنجایی که این مدلها بر روی زبان انسان آموزش داده میشوند، این میتواند مسائل اخلاقی بالقوه متعددی را مطرح کند، از جمله استفاده نادرست از زبان، و تعصب در نژاد، جنسیت، مذهب و موارد دیگر.
باید واضح باشد که از آنجایی که این مدلها به بزرگتر شدن و عملکرد بهتر ادامه میدهند، نیاز به کوشا بودن در مورد درک و کاهش معایب آنها وجود دارد. درباره رویکرد Google برای هوش مصنوعی مسئول بیشتر بدانید.
در مورد LLM بیشتر بدانید
علاقه مند به معرفی عمیق تر مدل های زبان بزرگ هستید؟ ماژول جدید مدل های بزرگ زبان را در دوره Crash Learning Machine بررسی کنید.