این صفحه شامل اصطلاحات واژه نامه هوش مصنوعی مولد است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
الف
سازگاری
مترادف برای تنظیم یا تنظیم دقیق .
ارزیابی خودکار
استفاده از نرم افزار برای قضاوت در مورد کیفیت خروجی یک مدل.
وقتی خروجی مدل نسبتاً ساده باشد، یک اسکریپت یا برنامه میتواند خروجی مدل را با یک پاسخ طلایی مقایسه کند. این نوع ارزیابی خودکار گاهی اوقات ارزیابی برنامه ای نامیده می شود. معیارهایی مانند ROUGE یا BLEU اغلب برای ارزیابی برنامه ای مفید هستند.
هنگامی که خروجی مدل پیچیده است یا پاسخ درستی ندارد، یک برنامه ML جداگانه به نام autorater گاهی اوقات ارزیابی خودکار را انجام می دهد.
در مقابل ارزیابی انسانی .
ارزیابی نویسنده
مکانیزم ترکیبی برای قضاوت در مورد کیفیت خروجی یک مدل هوش مصنوعی مولد که ارزیابی انسانی را با ارزیابی خودکار ترکیب میکند. autorater یک مدل ML است که بر روی داده های ایجاد شده توسط ارزیابی انسانی آموزش دیده است. در حالت ایده آل، یک autorater یاد می گیرد که از یک ارزیاب انسانی تقلید کند.Autoraters از پیش ساخته شده در دسترس هستند، اما بهترین autorater ها به طور خاص برای وظیفه ای که شما ارزیابی می کنید تنظیم شده اند.
مدل خود رگرسیون
مدلی که پیش بینی را بر اساس پیش بینی های قبلی خود استنباط می کند. برای مثال، مدلهای زبان رگرسیون خودکار، نشانههای بعدی را بر اساس نشانههای پیشبینیشده قبلی پیشبینی میکنند. همه مدلهای زبان بزرگ مبتنی بر Transformer دارای رگرسیون خودکار هستند.
در مقابل، مدلهای تصویر مبتنی بر GAN معمولاً رگرسیون خودکار نیستند، زیرا آنها یک تصویر را در یک گذر به جلو و نه به صورت تکراری در مراحل تولید میکنند. با این حال، برخی از مدلهای تولید تصویر دارای رگرسیون خودکار هستند ، زیرا آنها یک تصویر را در مراحل تولید میکنند.
ب
مدل پایه
یک مدل از پیش آموزش دیده که می تواند به عنوان نقطه شروع برای تنظیم دقیق برای رسیدگی به وظایف یا برنامه های خاص باشد.
همچنین مدل از پیش آموزش دیده و مدل فونداسیون را ببینید.
سی
تحریک زنجیره ای از فکر
یک تکنیک مهندسی سریع که یک مدل زبان بزرگ (LLM) را تشویق می کند تا استدلال خود را گام به گام توضیح دهد. به عنوان مثال، با توجه خاص به جمله دوم، دستور زیر را در نظر بگیرید:
یک راننده چند گرم نیرو را در اتومبیلی که از 0 تا 60 مایل در ساعت در 7 ثانیه طی می کند تجربه می کند؟ در پاسخ، تمام محاسبات مربوطه را نشان دهید.
پاسخ LLM به احتمال زیاد:
- دنباله ای از فرمول های فیزیک را نشان دهید و مقادیر 0، 60 و 7 را در مکان های مناسب وصل کنید.
- توضیح دهید که چرا آن فرمول ها را انتخاب کرده است و معنی متغیرهای مختلف چیست.
تحریک زنجیرهای از فکر، LLM را مجبور میکند همه محاسبات را انجام دهد، که ممکن است به پاسخ صحیحتری منجر شود. علاوه بر این، تحریک زنجیرهای از فکر، کاربر را قادر میسازد تا مراحل LLM را برای تعیین اینکه آیا پاسخ منطقی است یا نه، بررسی کند.
چت کردن
محتویات یک گفتگوی رفت و برگشت با یک سیستم ML، معمولاً یک مدل زبان بزرگ . تعامل قبلی در یک چت (آنچه تایپ کردید و مدل زبان بزرگ چگونه پاسخ داد) زمینه ای برای بخش های بعدی گپ می شود.
چت بات یک برنامه کاربردی از یک مدل زبان بزرگ است.
جاسازی زبان متنی
تعبیهای که به «درک» کلمات و عبارات به شیوهای نزدیک میشود که سخنرانان انسانی مسلط میتوانند. تعبیههای زبان متنی میتوانند نحو، معناشناسی و زمینه پیچیده را درک کنند.
برای مثال، تعبیههای کلمه انگلیسی cow را در نظر بگیرید. جاسازیهای قدیمیتر مانند word2vec میتوانند کلمات انگلیسی را نشان دهند به طوری که فاصله در فضای جاسازی از گاو تا گاو مشابه فاصله میش (گوسفند ماده) تا قوچ (گوسفند نر) یا از ماده تا نر است. تعبیههای زبانی متنی میتواند با درک این موضوع که انگلیسی زبانان گاهی اوقات به طور تصادفی از کلمه cow به معنای گاو یا گاو نر استفاده میکنند، قدمی فراتر بگذارند.
پنجره زمینه
تعداد نشانه هایی که یک مدل می تواند در یک دستور داده شده پردازش کند. هرچه پنجره زمینه بزرگتر باشد، مدل می تواند از اطلاعات بیشتری برای ارائه پاسخ های منسجم و منسجم به درخواست استفاده کند.
D
تحریک مستقیم
مترادف عبارت zero-shot prompting .
تقطیر
فرآیند کاهش اندازه یک مدل (معروف به معلم ) به یک مدل کوچکتر (معروف به دانش آموز ) که پیش بینی های مدل اصلی را تا حد امکان صادقانه تقلید می کند. تقطیر مفید است زیرا مدل کوچکتر دو مزیت کلیدی نسبت به مدل بزرگتر (معلم) دارد:
- زمان استنتاج سریعتر
- کاهش حافظه و مصرف انرژی
با این حال، پیشبینیهای دانشآموز معمولاً به خوبی پیشبینیهای معلم نیست.
تقطیر، مدل دانشآموز را آموزش میدهد تا تابع ضرر را بر اساس تفاوت بین خروجیهای پیشبینیهای مدل دانشآموز و معلم به حداقل برساند.
تقطیر را با اصطلاحات زیر مقایسه و مقایسه کنید:
برای اطلاعات بیشتر به LLMs: Fine-tuning, distillation, and prompt engineering در Machine Learning Crash Course مراجعه کنید.
E
ارزیابی می کند
در درجه اول به عنوان مخفف ارزیابی های LLM استفاده می شود. به طور گسترده تر، evals مخفف هر شکلی از ارزیابی است.
ارزیابی
فرآیند اندازه گیری کیفیت یک مدل یا مقایسه مدل های مختلف با یکدیگر.
برای ارزیابی یک مدل یادگیری ماشینی نظارت شده ، معمولاً آن را بر اساس یک مجموعه اعتبار سنجی و یک مجموعه آزمایش قضاوت می کنید. ارزیابی LLM معمولاً شامل ارزیابیهای کیفی و ایمنی گستردهتری است.
اف
واقعیت
در دنیای ML، یک ویژگی که مدلی را توصیف می کند که خروجی آن بر اساس واقعیت است. واقعیت یک مفهوم است تا یک معیار. به عنوان مثال، فرض کنید دستور زیر را به یک مدل زبان بزرگ ارسال می کنید:
فرمول شیمیایی نمک خوراکی چیست؟
یک مدل بهینه سازی واقعیت پاسخ می دهد:
NaCl
این وسوسه انگیز است که فرض کنیم همه مدل ها باید بر اساس واقعیت باشند. با این حال، برخی از اعلانها، مانند موارد زیر، باید باعث شود که یک مدل هوش مصنوعی مولد، خلاقیت را بهجای واقعیت بهینه کند.
در مورد یک فضانورد و یک کاترپیلار به من بگویید.
بعید به نظر می رسد که لیمریک حاصل بر اساس واقعیت باشد.
تقابل با زمین گرایی .
پوسیدگی سریع
یک تکنیک آموزشی برای بهبود عملکرد LLM . پوسیدگی سریع شامل کاهش سریع نرخ یادگیری در طول آموزش است. این استراتژی به جلوگیری از تطبیق بیش از حد مدل به داده های آموزشی کمک می کند و تعمیم را بهبود می بخشد.
چند شات تحریک
درخواستی که حاوی بیش از یک («چند») مثال است که نشان میدهد مدل زبان بزرگ چگونه باید پاسخ دهد. برای مثال، دستور طولانی زیر حاوی دو مثال است که یک مدل زبان بزرگ را نشان می دهد که چگونه به یک پرس و جو پاسخ دهد.
بخش هایی از یک فرمان | یادداشت ها |
---|---|
واحد پول رسمی کشور مشخص شده چیست؟ | سوالی که می خواهید LLM به آن پاسخ دهد. |
فرانسه: یورو | یک مثال. |
بریتانیا: GBP | مثال دیگر. |
هند: | پرس و جو واقعی |
درخواستهای چند شات معمولاً نتایج مطلوبتری نسبت به درخواستهای صفر و یک شات ایجاد میکنند. با این حال، درخواست چند شات به یک اعلان طولانیتر نیاز دارد.
درخواست چند شات شکلی از یادگیری چند شات است که برای یادگیری مبتنی بر سریع اعمال می شود.
برای اطلاعات بیشتر به مهندسی سریع در دوره تصادف یادگیری ماشین مراجعه کنید.
تنظیم دقیق
دومین پاس آموزشی ویژه کار بر روی یک مدل از پیش آموزش دیده انجام شد تا پارامترهای آن را برای یک مورد استفاده خاص اصلاح کند. به عنوان مثال، دنباله آموزش کامل برای برخی از مدل های زبان بزرگ به شرح زیر است:
- قبل از آموزش: یک مدل زبان بزرگ را بر روی یک مجموعه داده کلی گسترده، مانند تمام صفحات ویکی پدیا به زبان انگلیسی، آموزش دهید.
- تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند پاسخ به سؤالات پزشکی، آموزش دهید. تنظیم دقیق معمولاً شامل صدها یا هزاران مثال متمرکز بر یک کار خاص است.
به عنوان مثال دیگر، دنباله آموزش کامل برای یک مدل تصویر بزرگ به شرح زیر است:
- قبل از آموزش: یک مدل تصویر بزرگ را بر روی یک مجموعه داده کلی تصویری گسترده، مانند تمام تصاویر موجود در Wikimedia Commons آموزش دهید.
- تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند تولید تصاویر اورکا، آموزش دهید.
تنظیم دقیق می تواند شامل هر ترکیبی از استراتژی های زیر باشد:
- اصلاح تمام پارامترهای موجود مدل از پیش آموزش دیده. گاهی اوقات به آن تنظیم دقیق کامل می گویند.
- اصلاح تنها برخی از پارامترهای موجود مدل از قبل آموزش دیده (معمولاً، نزدیکترین لایه ها به لایه خروجی )، در حالی که سایر پارامترهای موجود را بدون تغییر نگه می دارد (معمولاً، لایه های نزدیک به لایه ورودی ). تنظیم کارآمد پارامتر را ببینید.
- افزودن لایههای بیشتر، معمولاً در بالای لایههای موجود که نزدیکترین لایه به لایه خروجی است.
تنظیم دقیق شکلی از یادگیری انتقالی است. به این ترتیب، تنظیم دقیق ممکن است از یک تابع تلفات متفاوت یا نوع مدل متفاوتی نسبت به مواردی که برای آموزش مدل از پیش آموزش دیده استفاده میشود، استفاده کند. به عنوان مثال، میتوانید یک مدل تصویر بزرگ از قبل آموزشدیده را برای تولید یک مدل رگرسیونی تنظیم کنید که تعداد پرندگان در یک تصویر ورودی را برمیگرداند.
تنظیم دقیق را با عبارات زیر مقایسه و مقایسه کنید:
برای اطلاعات بیشتر به تنظیم دقیق در دوره تصادف یادگیری ماشین مراجعه کنید.
مدل فلش
خانواده ای از مدل های نسبتا کوچک Gemini که برای سرعت و تاخیر کم بهینه شده اند. مدلهای فلش برای طیف گستردهای از برنامهها طراحی شدهاند که پاسخهای سریع و توان عملیاتی بالا بسیار مهم است.
مدل پایه
یک مدل بسیار بزرگ از قبل آموزش دیده که بر روی یک مجموعه آموزشی عظیم و متنوع آموزش دیده است. یک مدل پایه می تواند هر دو مورد زیر را انجام دهد:
- به طیف گسترده ای از درخواست ها به خوبی پاسخ دهید.
- به عنوان یک مدل پایه برای تنظیم دقیق اضافی یا سفارشی سازی دیگر خدمت کنید.
به عبارت دیگر، یک مدل پایه در حال حاضر به معنای کلی بسیار توانا است، اما می تواند بیشتر سفارشی شود تا برای یک کار خاص مفیدتر شود.
کسری از موفقیت ها
معیاری برای ارزیابی متن تولید شده در مدل ML. کسری از موفقیت ها تعداد خروجی های متن تولید شده "موفق" تقسیم بر تعداد کل خروجی های متن تولید شده است. به عنوان مثال، اگر یک مدل زبان بزرگ 10 بلوک کد تولید کند که پنج بلوک آن موفق بوده است، کسری از موفقیت ها 50 درصد خواهد بود.
اگرچه کسری از موفقیت ها به طور گسترده در سراسر آمار مفید است، اما در ML، این معیار در درجه اول برای اندازه گیری وظایف قابل تأیید مانند تولید کد یا مسائل ریاضی مفید است.
جی
جوزا
این اکوسیستم شامل پیشرفته ترین هوش مصنوعی گوگل است. عناصر این اکوسیستم عبارتند از:
- مدل های مختلف جمینی .
- رابط مکالمه تعاملی به مدل Gemini. کاربران دستورات را تایپ می کنند و Gemini به آن درخواست ها پاسخ می دهد.
- API های مختلف Gemini.
- محصولات تجاری مختلف بر اساس مدل های جمینی؛ به عنوان مثال، Gemini برای Google Cloud .
مدل های جمینی
پیشرفته ترین مدل های چندوجهی مبتنی بر ترانسفورماتور گوگل. مدل های Gemini به طور خاص برای ادغام با عوامل طراحی شده اند.
کاربران می توانند با مدل های Gemini به روش های مختلفی از جمله از طریق یک رابط گفتگوی تعاملی و از طریق SDK تعامل داشته باشند.
جما
خانواده ای از مدل های باز سبک وزن که از همان تحقیقات و فناوری استفاده شده برای ایجاد مدل های Gemini ساخته شده اند. چندین مدل مختلف جما موجود است که هر کدام ویژگیهای متفاوتی مانند دید، کد و دستورالعملهای زیر را ارائه میکنند. برای جزئیات بیشتر به جما مراجعه کنید.
GenAI یا genAI
مخفف AI مولد .
متن تولید شده
به طور کلی، متنی که یک مدل ML خروجی می دهد. هنگام ارزیابی مدلهای زبان بزرگ، برخی از معیارها متن تولید شده را با متن مرجع مقایسه میکنند. برای مثال، فرض کنید میخواهید تعیین کنید که چگونه یک مدل ML از فرانسوی به هلندی ترجمه میشود. در این مورد:
- متن تولید شده ترجمه هلندی است که مدل ML خروجی می دهد.
- متن مرجع ترجمه هلندی است که یک مترجم انسانی (یا نرم افزار) ایجاد می کند.
توجه داشته باشید که برخی از استراتژی های ارزیابی شامل متن مرجع نیستند.
هوش مصنوعی مولد
یک میدان تحولآفرین در حال ظهور بدون تعریف رسمی. گفته میشود، اکثر کارشناسان موافق هستند که مدلهای هوش مصنوعی تولیدی میتوانند محتوایی را ایجاد کنند ("تولید") که همه موارد زیر باشد:
- مجتمع
- منسجم
- اصلی
نمونه هایی از هوش مصنوعی مولد عبارتند از:
- مدلهای زبان بزرگ ، که میتوانند متن اصلی پیچیده تولید کنند و به سؤالات پاسخ دهند.
- مدل تولید تصویر، که می تواند تصاویر منحصر به فردی تولید کند.
- مدلهای تولید صدا و موسیقی، که میتوانند موسیقی اصلی بسازند یا گفتار واقعی ایجاد کنند.
- مدل های تولید ویدیو، که می توانند فیلم های اصلی تولید کنند.
برخی از فناوریهای قبلی، از جمله LSTM و RNN ، میتوانند محتوای اصلی و منسجم تولید کنند. برخی از کارشناسان این فناوری های قبلی را به عنوان هوش مصنوعی مولد می دانند، در حالی که برخی دیگر احساس می کنند که هوش مصنوعی مولد واقعی به خروجی پیچیده تری نسبت به فناوری های قبلی نیاز دارد.
در مقابل ML پیش بینی .
پاسخ طلایی
پاسخی که به خوبی شناخته شده است. به عنوان مثال، با توجه به دستور زیر:
2 + 2
پاسخ طلایی امیدوارانه این است:
4
اچ
ارزیابی انسانی
فرآیندی که در آن افراد کیفیت خروجی مدل ML را قضاوت می کنند. برای مثال، داشتن افراد دوزبانه در مورد کیفیت مدل ترجمه ML قضاوت می کنند. ارزیابی انسانی به ویژه برای قضاوت در مورد مدل هایی که پاسخ درستی ندارند مفید است.
در تضاد با ارزیابی خودکار و ارزیابی autorater .
انسان در حلقه (HITL)
یک اصطلاح با تعریف ضعیف که می تواند به معنای یکی از موارد زیر باشد:
- سیاستی برای مشاهده انتقادی یا شکاکانه خروجی هوش مصنوعی مولد .
- استراتژی یا سیستمی برای حصول اطمینان از اینکه افراد به شکلدهی، ارزیابی و اصلاح رفتار یک مدل کمک میکنند. نگه داشتن یک انسان در حلقه، هوش مصنوعی را قادر می سازد از هوش ماشینی و هوش انسانی بهره مند شود. به عنوان مثال، سیستمی که در آن یک هوش مصنوعی کدی را تولید می کند که مهندسان نرم افزار سپس آن را بررسی می کنند، یک سیستم انسان در حلقه است.
من
یادگیری درون متنی
مترادف اعلان چند شات .
استنتاج
در یادگیری ماشینی سنتی، فرآیند پیشبینی با استفاده از یک مدل آموزشدیده برای نمونههای بدون برچسب . برای کسب اطلاعات بیشتر ، آموزش تحت نظارت را در دوره مقدماتی ML ببینید.
در مدل های زبان بزرگ ، استنتاج فرآیند استفاده از یک مدل آموزش دیده برای ایجاد پاسخ به یک اعلان ورودی است.
استنتاج در آمار معنای متفاوتی دارد. برای جزئیات بیشتر به مقاله ویکی پدیا در مورد استنتاج آماری مراجعه کنید.
تنظیم دستورالعمل
نوعی تنظیم دقیق که توانایی مدل هوش مصنوعی مولد را برای پیروی از دستورالعمل ها بهبود می بخشد. تنظیم دستورالعمل شامل آموزش یک مدل بر روی یک سری از دستورات است که معمولاً طیف گسترده ای از وظایف را پوشش می دهد. سپس مدل تنظیمشده توسط دستورالعملها، پاسخهای مفیدی به درخواستهای صفر شات در انواع وظایف ایجاد میکند.
مقایسه و مقایسه با:
L
تاخیر
مدت زمانی که طول می کشد تا یک مدل ورودی را پردازش کند و پاسخ ایجاد کند. یک پاسخ با تأخیر بالا نسبت به پاسخ با تأخیر کم زمان بیشتری برای تولید نیاز دارد.
عواملی که بر تأخیر مدل های زبان بزرگ تأثیر می گذارد عبارتند از:
- طول ورودی و خروجی [ نشانه ]
- پیچیدگی مدل
- زیرساختی که مدل روی آن اجرا می شود
بهینه سازی تاخیر برای ایجاد برنامه های کاربردی پاسخگو و کاربر پسند بسیار مهم است.
LLM
مخفف مدل زبان بزرگ .
ارزیابی های LLM (ارزیابی)
مجموعهای از معیارها و معیارها برای ارزیابی عملکرد مدلهای زبان بزرگ (LLM). در سطح بالا، ارزیابی های LLM:
- به محققان کمک کنید مناطقی را که LLM نیاز به بهبود دارند شناسایی کنند.
- در مقایسه LLM های مختلف و شناسایی بهترین LLM برای یک کار خاص مفید هستند.
- کمک کنید تا مطمئن شوید که LLM ها برای استفاده ایمن و اخلاقی هستند.
برای اطلاعات بیشتر، مدلهای زبان بزرگ (LLM) را در دوره آموزشی تصادفی یادگیری ماشین ببینید.
LoRA
مخفف عبارت Low-Rank Adaptability .
سازگاری با رتبه پایین (LoRA)
یک تکنیک کارآمد از نظر پارامتر برای تنظیم دقیق که وزنهای از پیش آموزشدیدهشده مدل را منجمد میکند (به طوری که دیگر نمیتوان آنها را اصلاح کرد) و سپس مجموعه کوچکی از وزنههای قابل آموزش را در مدل قرار میدهد. این مجموعه از وزنه های قابل تمرین (همچنین به عنوان "ماتریس های به روز رسانی" شناخته می شود) به طور قابل توجهی کوچکتر از مدل پایه است و بنابراین برای تمرین بسیار سریعتر است.
LoRA مزایای زیر را ارائه می دهد:
- کیفیت پیشبینیهای مدل را برای دامنهای که تنظیم دقیق در آن اعمال میشود، بهبود میبخشد.
- تنظیم دقیقتر از تکنیکهایی که نیاز به تنظیم دقیق همه پارامترهای مدل دارند.
- هزینه محاسباتی استنتاج را با فعال کردن سرویس دهی همزمان چندین مدل تخصصی که یک مدل پایه را به اشتراک می گذارند، کاهش می دهد.
م
ترجمه ماشینی
استفاده از نرم افزار (معمولاً یک مدل یادگیری ماشینی) برای تبدیل متن از یک زبان انسانی به زبان انسانی دیگر، به عنوان مثال، از انگلیسی به ژاپنی.
میانگین دقت متوسط در k (mAP@k)
میانگین آماری تمام میانگین دقت در نمره های k در یک مجموعه داده اعتبار سنجی. یکی از کاربردهای میانگین دقت در k قضاوت در مورد کیفیت توصیه های تولید شده توسط یک سیستم توصیه می باشد.
اگرچه عبارت "میانگین متوسط" اضافی به نظر می رسد، نام متریک مناسب است. از این گذشته، این متریک میانگین دقت میانگین چندگانه را در مقادیر k پیدا می کند.
مخلوطی از متخصصان
طرحی برای افزایش کارایی شبکه عصبی با استفاده از تنها زیرمجموعه ای از پارامترهای آن (معروف به متخصص ) برای پردازش یک نشانه یا نمونه ورودی داده شده. یک شبکه گیتینگ هر نشانه یا نمونه ورودی را به متخصص(های) مناسب هدایت می کند.
برای جزئیات، به یکی از مقالات زیر مراجعه کنید:
- شبکههای عصبی فوقالعاده بزرگ: لایه ترکیبی از کارشناسان با دروازههای پراکنده
- ترکیبی از متخصصان با مسیریابی انتخاب خبره
MMIT
مخفف عبارت multimodal instruction-tuned .
مدل آبشاری
سیستمی که مدل ایده آل را برای یک جستار استنتاج خاص انتخاب می کند.
گروهی از مدل ها را تصور کنید که از بسیار بزرگ ( پارامترهای زیاد) تا بسیار کوچکتر (پارامترهای بسیار کمتر) را شامل می شود. مدل های بسیار بزرگ نسبت به مدل های کوچکتر منابع محاسباتی بیشتری را در زمان استنتاج مصرف می کنند. با این حال، مدل های بسیار بزرگ معمولاً می توانند درخواست های پیچیده تری را نسبت به مدل های کوچکتر استنباط کنند. مدل آبشاری پیچیدگی پرس و جو استنتاج را تعیین می کند و سپس مدل مناسب را برای انجام استنتاج انتخاب می کند. انگیزه اصلی برای آبشاری مدل، کاهش هزینههای استنتاج با انتخاب مدلهای کوچکتر و تنها انتخاب مدل بزرگتر برای پرس و جوهای پیچیدهتر است.
تصور کنید که یک مدل کوچک روی یک تلفن اجرا می شود و نسخه بزرگتر آن مدل روی یک سرور راه دور اجرا می شود. آبشاری مدل خوب با فعال کردن مدل کوچکتر برای رسیدگی به درخواست های ساده و تنها فراخوانی مدل راه دور برای رسیدگی به درخواست های پیچیده، هزینه و تأخیر را کاهش می دهد.
همچنین مدل روتر را ببینید.
روتر مدل
الگوریتمی که مدل ایده آل را برای استنتاج در مدل آبشاری تعیین می کند. یک روتر مدل خود معمولاً یک مدل یادگیری ماشینی است که به تدریج یاد می گیرد که چگونه بهترین مدل را برای یک ورودی مشخص انتخاب کند. با این حال، یک روتر مدل گاهی اوقات می تواند یک الگوریتم یادگیری ساده تر و غیر ماشینی باشد.
MOE
مخفف mix of experts .
MT
مخفف ترجمه ماشینی .
ن
نانو
یک مدل نسبتا کوچک Gemini که برای استفاده در دستگاه طراحی شده است. برای جزئیات بیشتر به Gemini Nano مراجعه کنید.
هیچ کس پاسخ درستی ندارد (NORA)
اعلانی که چندین پاسخ صحیح دارد. به عنوان مثال، اعلان زیر هیچ پاسخ درستی ندارد:
یک جوک خنده دار در مورد فیل ها بگویید.
ارزیابی پاسخها به درخواستهای هیچکدام از پاسخهای درست، معمولاً ذهنیتر از ارزیابی درخواستها با یک پاسخ درست است. به عنوان مثال، ارزیابی یک جوک فیل نیاز به یک روش سیستماتیک برای تعیین خنده دار بودن جوک دارد.
نورا
مخفف هیچ کس درست جواب نمی دهد .
نوت بوک LM
ابزاری مبتنی بر Gemini که به کاربران امکان میدهد اسناد را آپلود کنند و سپس از درخواستها برای پرسیدن، خلاصه کردن یا سازماندهی آن اسناد استفاده کنند. برای مثال، یک نویسنده میتواند چندین داستان کوتاه آپلود کند و از Notebook LM بخواهد مضامین مشترک آنها را بیابد یا تشخیص دهد که کدام یک بهترین فیلم را میسازد.
O
یک پاسخ درست (ORA)
اعلانی که یک پاسخ صحیح دارد. به عنوان مثال، دستور زیر را در نظر بگیرید:
درست یا غلط: زحل بزرگتر از مریخ است.
تنها پاسخ صحیح درست است.
در مقابل هیچ یک پاسخ درست نیست .
درخواست تک شات
درخواستی که حاوی یک مثال است که نشان می دهد مدل زبان بزرگ چگونه باید پاسخ دهد. برای مثال، دستور زیر حاوی یک مثال است که یک مدل زبان بزرگ را نشان می دهد که چگونه باید به یک پرس و جو پاسخ دهد.
بخش هایی از یک فرمان | یادداشت ها |
---|---|
واحد پول رسمی کشور مشخص شده چیست؟ | سوالی که می خواهید LLM به آن پاسخ دهد. |
فرانسه: یورو | یک مثال. |
هند: | پرس و جو واقعی |
اعلان یک شات را با عبارات زیر مقایسه و مقایسه کنید:
ORA
مخفف یک پاسخ درست .
پ
تنظیم کارآمد از نظر پارامتر
مجموعهای از تکنیکها برای تنظیم دقیق یک مدل زبان بزرگ از پیش آموزشدیده (PLM) با کارآمدی بیشتر از تنظیم دقیق کامل. تنظیم کارآمد پارامتر معمولاً پارامترهای بسیار کمتری را نسبت به تنظیم دقیق کامل تنظیم میکند، اما به طور کلی یک مدل زبان بزرگ تولید میکند که به خوبی (یا تقریباً به همان اندازه) یک مدل زبان بزرگ ساخته شده از تنظیم دقیق کامل عمل میکند.
مقایسه و کنتراست تنظیم کارآمد پارامتر با:
تنظیم کارآمد پارامتر نیز به عنوان تنظیم دقیق پارامتر کارآمد شناخته می شود.
پکس
یک چارچوب برنامهنویسی طراحی شده برای آموزش مدلهای شبکه عصبی در مقیاس بزرگ بهقدری بزرگ که برشها یا غلافهای تراشه شتابدهنده TPU را در بر میگیرد.
Pax بر روی Flax ساخته شده است که بر روی JAX ساخته شده است.
PLM
مخفف مدل زبان از پیش آموزش دیده .
مدل پس از آموزش
اصطلاحی با تعریف ضعیف که معمولاً به یک مدل از پیش آموزش دیده اشاره می کند که برخی از مراحل پس از پردازش را پشت سر گذاشته است، مانند یک یا چند مورد از موارد زیر:
مدل از پیش آموزش دیده
اگرچه این اصطلاح میتواند به هر مدل آموزشدیده یا بردار تعبیهشده آموزشدیده اشاره کند، مدل از پیش آموزشدیده در حال حاضر معمولاً به یک مدل زبان بزرگ آموزشدیده یا شکل دیگری از مدل هوش مصنوعی مولد آموزشدیده اشاره دارد.
همچنین مدل پایه و مدل پایه را ببینید.
قبل از آموزش
آموزش اولیه یک مدل بر روی یک مجموعه داده بزرگ. برخی از مدل های از پیش آموزش دیده غول های دست و پا چلفتی هستند و معمولاً باید از طریق آموزش های اضافی اصلاح شوند. به عنوان مثال، کارشناسان ML ممکن است یک مدل زبان بزرگ را در یک مجموعه داده متنی گسترده، مانند تمام صفحات انگلیسی در ویکیپدیا، از قبل آموزش دهند. پس از پیش آموزش، مدل به دست آمده ممکن است از طریق هر یک از تکنیک های زیر اصلاح شود:
حرفه ای
مدل Gemini با پارامترهای کمتر از Ultra اما پارامترهای بیشتر از نانو . برای جزئیات بیشتر به Gemini Pro مراجعه کنید.
سریع
هر متنی که به عنوان ورودی به یک مدل زبان بزرگ وارد می شود تا مدل به روشی خاص رفتار کند. درخواستها میتوانند به کوتاهی یک عبارت یا دلخواه طولانی باشند (مثلاً کل متن یک رمان). درخواستها به چند دسته تقسیم میشوند، از جمله مواردی که در جدول زیر نشان داده شدهاند:
دسته بندی سریع | مثال | یادداشت ها |
---|---|---|
سوال | یک کبوتر با چه سرعتی می تواند پرواز کند؟ | |
دستورالعمل | یک شعر خنده دار در مورد آربیتراژ بنویسید. | اعلانی که از مدل زبان بزرگ می خواهد کاری انجام دهد . |
مثال | کد Markdown را به HTML ترجمه کنید. به عنوان مثال: علامت گذاری: * آیتم لیست HTML: <ul> <li>مورد فهرست</li> </ul> | اولین جمله در این مثال یک دستورالعمل است. نمونه باقیمانده سریع است. |
نقش | توضیح دهید که چرا از تبار شیب در آموزش یادگیری ماشین به دکترا در فیزیک استفاده می شود. | قسمت اول جمله یک دستورالعمل است. عبارت "به دکترای فیزیک" بخش نقش است. |
ورودی جزئی برای تکمیل مدل | نخست وزیر انگلستان در آن زندگی می کند | یک سریع ورودی جزئی می تواند به طور ناگهانی خاتمه یابد (همانطور که این مثال انجام می دهد) یا با یک تأکید پایان می یابد. |
یک مدل هوش مصنوعی تولیدی می تواند با متن ، کد ، تصاویر ، تعبیه ها ، فیلم ها به یک سریع پاسخ دهد ... تقریباً هر چیزی.
یادگیری سریع
قابلیت برخی از مدل های خاص که آنها را قادر می سازد تا رفتار خود را در پاسخ به ورودی متن دلخواه ( PRICES ) تطبیق دهند. در یک الگوی یادگیری سریع مبتنی بر سریع ، یک مدل زبان بزرگ با تولید متن به یک سریع پاسخ می دهد. به عنوان مثال ، فرض کنید کاربر وارد سریع زیر می شود:
قانون سوم حرکت نیوتن را خلاصه کنید.
مدلی که قادر به یادگیری مبتنی بر سریع باشد ، به طور خاص برای پاسخ دادن به سریع قبلی آموزش داده نشده است. در عوض ، مدل "بسیاری از حقایق" را در مورد فیزیک ، چیزهای زیادی در مورد قوانین زبان عمومی و چیزهای زیادی در مورد آنچه که پاسخ های کلی مفید است ، می داند. این دانش برای ارائه پاسخ مفید (امیدوارم) کافی است. بازخورد اضافی انسانی ("این پاسخ خیلی پیچیده بود." یا "واکنش چیست؟") برخی از سیستم های یادگیری مبتنی بر سریع را قادر می سازد تا به تدریج سودمندی پاسخ های خود را بهبود بخشند.
طراحی سریع
مترادف برای مهندسی سریع .
مهندسی سریع
هنر ایجاد منجر به پاسخ های مورد نظر از یک مدل بزرگ زبان می شود. انسان مهندسی سریع را انجام می دهد. نوشتن مطالب خوب ساختار یافته بخش مهمی برای اطمینان از پاسخ های مفید از یک مدل زبان بزرگ است. مهندسی سریع به عوامل زیادی بستگی دارد ، از جمله:
- مجموعه داده ها برای پیش خط و احتمالاً خوب مدل زبان بزرگ استفاده می شود.
- دما و سایر پارامترهای رمزگشایی که مدل برای تولید پاسخ استفاده می کند.
طراحی سریع مترادف برای مهندسی سریع است.
برای اطلاعات بیشتر در مورد نوشتن دستورالعمل های مفید ، به مقدمه طراحی سریع مراجعه کنید.
تنظیم سریع
گروهی از مطالب برای ارزیابی یک مدل زبان بزرگ . به عنوان مثال ، تصویر زیر یک مجموعه سریع متشکل از سه ارسال را نشان می دهد:
مجموعه های سریع خوب شامل یک مجموعه به اندازه کافی "گسترده" از اعلان ها برای ارزیابی کامل ایمنی و کمک یک مدل بزرگ زبان است.
همچنین به مجموعه پاسخ مراجعه کنید.
تنظیم سریع
یک مکانیسم تنظیم کارآمد پارامتر که "پیشوند" ای را که سیستم برای فوری واقعی می آموزد ، می آموزد.
یک تغییر تنظیم سریع - بعضی اوقات به نام تنظیم پیشوند - برای پیش بینی پیشوند در هر لایه است. در مقابل ، بیشتر تنظیم سریع فقط پیشوند به لایه ورودی اضافه می کند.
آر
متن مرجع
پاسخ یک متخصص به سریع . به عنوان مثال ، با توجه به سریع زیر:
ترجمه سوال "نام شما چیست؟" از انگلیسی به فرانسوی.
پاسخ یک متخصص ممکن است:
نظر دهید vous appeles-vous؟
معیارهای مختلف (مانند Rouge ) درجه ای را که متن مرجع با متن تولید شده از مدل ML مطابقت دارد ، اندازه گیری می کنند.
یادگیری تقویت از بازخورد انسانی (RLHF)
با استفاده از بازخورد از رأی دهندگان انسانی برای بهبود کیفیت پاسخ های یک مدل. به عنوان مثال ، یک مکانیسم RLHF می تواند از کاربران بخواهد که کیفیت پاسخ یک مدل را با emo 👍 یا 👎 emoji ارزیابی کنند. سپس سیستم می تواند پاسخ های آینده خود را بر اساس آن بازخورد تنظیم کند.
پاسخ
متن ، تصاویر ، صوتی یا ویدئویی که یک مدل AI تولید کننده است . به عبارت دیگر ، سریع ورودی به یک مدل AI تولید کننده است و پاسخ خروجی است.
مجموعه پاسخ
مجموعه پاسخ ها یک مدل زبان بزرگ به یک مجموعه سریع ورودی باز می گردد.
نقش
سریع ، به طور معمول با ضمیر شما ، که به یک مدل هوش مصنوعی مولد می گوید وانمود می کند که هنگام تولید پاسخ ، شخص خاصی یا نقش خاصی است. نقش نقش می تواند به یک مدل AI مولد کمک کند تا به منظور ایجاد یک پاسخ مفیدتر ، به "طرز فکر" درست بپردازد. به عنوان مثال ، بسته به نوع پاسخی که به دنبال آن هستید ، ممکن است هر یک از اعلان های نقش زیر مناسب باشد:
شما دکترای علوم کامپیوتر دارید.
شما یک مهندس نرم افزار هستید که از توضیحات بیمار در مورد پایتون به دانشجویان جدید برنامه نویسی لذت می برید.
شما یک قهرمان اکشن با مجموعه ای از مهارت های برنامه نویسی خاص هستید. به من اطمینان دهید که یک مورد خاص را در لیست پایتون پیدا خواهید کرد.
اس
تنظیم سریع نرم
تکنیکی برای تنظیم یک مدل زبان بزرگ برای یک کار خاص ، بدون تنظیم دقیق منابع. به جای بازآفرینی تمام وزنهای موجود در مدل ، تنظیم سریع نرم به طور خودکار یک سریع را تنظیم می کند تا به همان هدف برسد.
با توجه به یک متن متنی ، تنظیم سریع نرم به طور معمول تعبیه های اضافی را به سریع اضافه می کند و از backpropagation برای بهینه سازی ورودی استفاده می کند.
سریع "سخت" حاوی نشانه های واقعی به جای تعبیه های نشانه است.
تی
دما
هیپرپارامتر که میزان تصادفی بودن خروجی یک مدل را کنترل می کند. درجه حرارت بالاتر منجر به خروجی تصادفی تر می شود ، در حالی که دمای پایین تر منجر به خروجی تصادفی کمتری می شود.
انتخاب بهترین دما به برنامه خاص یا مقادیر رشته بستگی دارد.
تو
فوق العاده
مدل جمینی با بیشترین پارامترها . برای جزئیات بیشتر به Gemini Ultra مراجعه کنید.
همچنین به Pro و Nano مراجعه کنید.
V
راس
پلت فرم Google Cloud برای AI و یادگیری ماشین. ورتکس ابزارها و زیرساخت هایی را برای ساخت ، استقرار و مدیریت برنامه های هوش مصنوعی از جمله دسترسی به مدل های جمینی فراهم می کند.ز
صفر شات
سریع که نمونه ای از نحوه پاسخگویی به مدل زبان بزرگ را ارائه نمی دهد. به عنوان مثال:
بخش هایی از یک سریع | یادداشت ها |
---|---|
ارز رسمی کشور مشخص شده چیست؟ | سوالی که می خواهید LLM به آن پاسخ دهد. |
هند: | پرس و جو واقعی |
مدل زبان بزرگ ممکن است با هر یک از موارد زیر پاسخ دهد:
- روپیه
- INR
- ₹
- روپیه هند
- روپیه
- روپیه هندی
همه پاسخ ها صحیح هستند ، اگرچه ممکن است یک قالب خاص را ترجیح دهید.
با اصطلاحات زیر مقایسه و کنتراست را با شرایط زیر مقایسه و کنتراست کنید: