Великі мовні моделі: донавчання, дистиляція і інженерія запитів

У попередньому розділі описано великі мовні моделі загального призначення, відомі як:

базові великі мовні моделі;
вихідні великі мовні моделі;
попередньо навчені великі мовні моделі.

Базова велика мовна модель навчається на достатній кількості природної мови, щоб "знати" надзвичайно багато про граматику, слова й ідіоми. Вона може генерувати інформативні речення на ті теми, на яких навчається. Крім того, базова модель може виконувати певні завдання, які традиційно називають "творчими", наприклад, писати вірші. Однак текст, який генерує така модель, не допоможе вирішити інші типи поширених проблем, для яких використовується машинне навчання (наприклад, виконати задачу регресії чи класифікації). Для таких сценаріїв базова мовна модель може слугувати платформою, а не рішенням.

Для перетворення базової великої мовної моделі на рішення, що відповідає потребам, необхідне донавчання. За допомогою вторинного процесу, який називається дистиляцією, створюється менша версія (з меншою кількістю параметрів) моделі, що пройшла донавчання.

Донавчання

За даними досліджень, базові мовні моделі мають настільки потужну здатність до розпізнавання зразків, що іноді потреба в додатковому навчанні для опанування окремих завдань є відносно невеликою. Таке додаткове навчання допомагає моделі робити кращі прогнози в межах конкретного завдання. Завдяки донавчанню розкривається практичний бік великої мовної моделі.

У донавчанні використовуються приклади, характерні для завдань, які виконуватиме модель. Інколи розробники можуть провести донавчання базової мовної моделі лише на кількох сотнях чи тисячах прикладів.

Попри відносно невелику кількість навчальних прикладів, для стандартного донавчання часто потрібні інтенсивні обчислення. Це пояснюється тим, що стандартне донавчання передбачає оновлення ваги й зсуву кожного параметра під час усіх ітерацій зворотного поширення. На щастя, є кращий процес, донавчання на основі коригування параметрів: змінюється лише певна підмножина параметрів під час кожної ітерації зворотного поширення.

Модель, що пройшла донавчання, зазвичай дає кращі прогнози, ніж базова велика мовна модель. Однак модель, яка пройшла донавчання, містить таку саму кількість параметрів, що й базова. Тож якщо базова велика мовна модель містить десять мільярдів параметрів, то у версії, що пройшла донавчання, їх також буде десять мільярдів.

Дистиляція

Більшість мовних моделей, що пройшли донавчання, містять величезну кількість параметрів. Через це для створення прогнозів потрібно дуже багато ресурсів середовища й обчислювальних ресурсів. Зверніть увагу, що великі обсяги цих параметрів зазвичай не використовуються, коли модель виконує конкретне завдання.

Дистиляція створює меншу версію великої мовної моделі. Дистильована модель генерує прогнози набагато швидше й вимагає менше ресурсів середовища й обчислювальних ресурсів, ніж повна велика мовна модель. Однак прогнози дистильованої мовної моделі зазвичай поступаються прогнозам оригінальної. Пам’ятайте, що великі мовні моделі з більшою кількістю параметрів майже завжди генерують кращі прогнози, ніж моделі, у яких їх менше.

Натисніть значок, щоб дізнатися, як працює дистиляція.

Щоб позначити дані, під час дистиляції найпоширенішої форми використовується групове виведення результатів. Потім ці позначені дані використовуються для навчання нової, меншої моделі (відомої як модель-учень), робота якої в реальних умовах може обходитися дешевше. Позначені дані виконують роль каналу, за допомогою якого більша модель (відома як модель-учитель) передає свої знання меншій.

Припустімо, що вам потрібна онлайн-система оцінювання токсичності для автоматичної модерації коментарів. У цьому разі можна використати велику онлайн-систему оцінювання токсичності, щоб позначити навчальні дані. Потім на основі цих даних можна розробити достатньо невелику модель оцінювання токсичності, яка здатна обробляти реальний потік даних.

Іноді модель-учитель може надавати більше позначених даних, ніж було використано для її навчання. Крім того, модель-учитель може передавати моделі-учню числові бали замість двійкових міток. Числовий бал забезпечує кращий навчальний сигнал, ніж двійкова мітка, завдяки чому модель-учень може передбачати не лише позитивні та негативні класи, але й граничні.

Інженерія запитів

Інженерія запитів дає змогу кінцевим користувачам великої мовної моделі налаштувати її результати. Тобто кінцеві користувачі пояснюють, як модель має реагувати на їхні запити.

Як і люди, великі мовні моделі добре вчаться на прикладах. Якщо надати мовній моделі єдиний приклад, це буде запит з одним прикладом. Припустімо, що ви хочете, щоб для виведення результатів про родину певного фрукта модель використовувала формат, наведений нижче.

Користувач вводить назву фрукта: велика мовна модель виводить його клас.

Запит з одним прикладом показує мовній моделі єдиний попередній зразок, а потім дає завдання виконати запит на його основі. Нижче наведено приклад.

peach: drupe
apple: ______

Часом достатньо одного прикладу, щоб мовна модель виводила корисний прогноз. Нижче наведено приклад.

apple: pome

А іноді одного прикладу недостатньо. Тоді користувач має показати мовній моделі кілька прикладів. Розгляньте запит, наведений нижче, який містить два приклади.

plum: drupe
pear: pome
lemon: ____

Якщо навести не один приклад, це буде запит із кількома прикладами. Перші два рядки попереднього запиту можна вважати навчальними прикладами.

Чи може велика мовна модель надавати корисні прогнози у відповідь на запит без прикладів? Іноді так, але мовні моделі краще працюють, якщо надати контекст. Наприклад, якщо не надати контекст, у відповідь на запит без прикладів, наведений нижче, можна отримати інформацію про технологічну компанію, а не фрукт.

apple: _______

Виведення результатів офлайн

Іноді велика мовна модель має стільки параметрів, що виведення результатів онлайн відбувається надто повільно для таких практичних завдань, як регресія чи класифікація. Тому багато команд розробників замість цього покладаються на виведення результатів офлайн (інша назва – групове виведення результатів або статичне виведення результатів). Іншими словами, замість того, щоб відповідати на запити під час роботи, навчена модель робить прогнози заздалегідь, а потім кешує їх.

Неважливо, як довго мовна модель працюватиме над завданням, якщо вона має виконувати його лише раз на тиждень або місяць.

Наприклад, команда Пошуку Google використовувала велику мовну модель для виведення результатів офлайн, щоб кешувати список із понад 800 синонімів слів на позначення вакцин від COVID-19 понад 50 мовами. Потім на основі кешованого списку Пошук Google визначав запити про вакцини в реальному потоці даних.

Відповідальне використання великих мовних моделей

Подібно до інших форм машинного навчання, мовні моделі зазвичай мають такі самі упередженості, як:

дані, на яких їх навчали;
дані, на яких їх дистилювали.

Використовуйте великі мовні моделі об’єктивно й відповідально згідно з уроками, представленими раніше в цьому курсі.

Вправа. Перевірте свої знання

Яке з наступних тверджень щодо великих мовних моделей правильне?

Дистильована велика мовна модель містить менше параметрів, ніж базова мовна модель, на основі якої її створили.

Так, дистиляція зменшує кількість параметрів.

Велика мовна модель, що пройшла донавчання, містить менше параметрів, ніж базова мовна модель, на основі якої її навчали.

Модель, яка пройшла донавчання, містить таку саму кількість параметрів, що й вихідна базова мовна модель.

Оскільки користувачі все більше використовують інженерію запитів, кількість параметрів у великій мовній моделі зростає.

Інженерія запитів не призводить до додавання (а також видалення чи зміни) параметрів великої мовної моделі.

Що таке велика мовна модель (15 хв)

Далі

Перевірте свої знання (10 хв)