Великі мовні моделі

Що таке мовна модель?

Мовна модель оцінює імовірність появи токена або послідовності токенів у довшій послідовності інших токенів. Токен може бути словом, підсловом (морфемою) або навіть одним символом.

Натисніть значок, щоб дізнатися більше про токени.

Більшість сучасних мовних моделей створюють токени, використовуючи підслова, тобто фрагменти тексту із семантичним значенням. Довжина фрагментів може бути різною: від окремих символів, таких як знаки пунктуації чи s на позначення присвійного відмінка (в англійській мові), до цілих слів. Префікси й суфікси можуть бути представлені як окремі підслова. Наприклад, слово unwatched може бути представлено такими трьома підсловами:

un (префікс);
watch (корінь);
ed (суфікс).

Слово cats може бути представлено такими двома підсловами:

cat (корінь);
s (суфікс).

Складніше слово, наприклад antidisestablishmentarianism може бути представлено шістьма підсловами:

anti;
dis;
establish;
ment;
arian;
ism.

Токенізація прив’язана до мови, тому кількість символів у токені відрізняється для різних мов. Для англійської один токен приблизно відповідає 4 символам або 3/4 слова, тож 400 лексем – це орієнтовно 300 слів.

Токени – це атомарна одиниця, тобто найменша одиниця мовного моделювання.

Зараз токени також успішно використовуються для комп’ютерного зору й створення аудіо.

Розгляньмо речення, наведене нижче, і токени, які можна використати, щоб доповнити його.

When I hear rain on my roof, I _______ in my kitchen.

Мовна модель визначає імовірності різних токенів або їх послідовностей, щоб заповнити пробіл. Наприклад, у таблиці нижче наведено вірогідні токени і їх значення імовірності.

Імовірність	Токен(-и)
9,4%	cook soup
5,2%	warm up a kettle
3,6%	cower
2,5%	nap
2,2%	relax

Іноді послідовність токенів може бути цілим реченням, абзацом або навіть твором.

Певні додатки можуть використовувати таблицю ймовірностей для створення прогнозів. Прогнозом може бути найімовірніший варіант (наприклад, cook soup) або випадковий – вибраний із токенів, значення ймовірності яких перевищує певний поріг.

На основі алгоритму, що визначає імовірність варіанта, який використовується замість пробілу в текстовій послідовності, можна створити систему, що виконує і складніші завдання, зокрема:

генерує текст;
перекладає текст з однієї мови іншою;
створює короткі перекази документів.

Моделюючи статистичні схеми токенів, сучасні мовні моделі формують надзвичайно потужні внутрішні представлення мови й можуть генерувати адекватні мовні формулювання.

N-грамні мовні моделі

N-грами – це впорядковані послідовності слів, які використовуються для побудови мовних моделей, при цьому N – кількість слів у послідовності. Наприклад, якщо N становить 2, N-грама називається 2-грамою (або біграмою), а якщо 5, то 5-грамою. Розгляньмо таку фразу з навчального документа:

you are very nice

Отримані 2-грами:

you are;
are very;
very nice.

Коли N дорівнює 3, N-грама називається 3-грамою (або триграмою). Із цієї самої фрази отримуються такі 3-грами:

you are very;
are very nice.

На основі вхідних даних – двох слів – триграмна мовна модель може передбачити ймовірність третього слова. Наприклад, наведено такі два слова:

orange is

Мовна модель вивчає всі 3-грами, отримані з навчального корпусу даних, які починаються зі словосполучення orange is, щоб визначити найімовірніше третє слово. Імовірно, з двох слів orange is починаються сотні 3-грам, але можна зосередитися лише на таких двох варіантах:

orange is ripe
orange is cheerful

Перший варіант (orange is ripe) стосується фрукта апельсина, тоді як другий (orange is cheerful) – помаранчевого кольору.

Контекст

Люди можуть пам’ятати відносно довгий контекст. Переглядаючи третю дію п’єси, вони пам’ятають про персонажів, представлених у першій дії. Або ж сміються наприкінці довгого анекдоту, оскільки пам’ятають контекст із його початку.

У мовних моделях контекст – це корисна інформація, що передує цільовому токену або слідує за ним. Контекст допомагає мовній моделі визначити, чого стосується слово orange: цитрусового фрукта чи кольору.

Контекст може допомогти мовній моделі робити кращі прогнози. Але чи забезпечує 3-грама достатній контекст? На жаль, контекст, який дає 3-грама, – це лише перші два слова. Наприклад, два слова orange is не дають мовній моделі достатньо контексту, щоб вона могла визначити третє слово. Через відсутність контексту триграмні мовні моделі допускають багато помилок.

Довші N-грами, безумовно, дають більше контексту, ніж коротші. Однак що більше значення N, то менша відносна частота появи кожного прикладу. Якщо число N дуже велике, мовна модель зазвичай має лише один приклад кожного випадку використання N-кількості токенів, що не дуже допомагає прогнозувати цільовий токен.

Рекурентні нейронні мережі

Рекурентні нейронні мережі дають більше контексту, ніж N-грами. Рекурентна нейронна мережа – це тип нейронної мережі, яка навчається на послідовності токенів. Наприклад, рекурентна нейронна мережа може поступово вивчати (і вчитися ігнорувати) вибраний контекст із кожного слова речення подібно до того, як роблять люди, слухаючи того, хто говорить. Велика рекурентна нейронна мережа може отримати контекст з уривка розміром у кілька речень.

Хоча рекурентні нейронні мережі вивчають більше контексту, ніж N-грамні, кількість корисного контексту, який вони можуть інтуїтивно сприймати, усе ще відносно обмежена. Рекурентні нейронні мережі оцінюють інформацію токен за токеном. А великі мовні моделі (це тема наступного розділу) можуть оцінювати весь контекст відразу.

Зверніть увагу, що навчання рекурентних нейронних мереж для довгих контекстів обмежує проблема зникання градієнтів.

Вправа. Перевірте свої знання

Яка мовна модель робить кращі прогнози для текстів англійською мовою?

Мовна модель на основі 6-грам
Мовна модель на основі 5-грам

Відповідь залежить від розміру й різноманітності навчального набору даних.

Якщо навчальний набір охоплює мільйони різноманітних документів, то модель на основі 6-грам, імовірно, покаже кращі результати, ніж 5-грамна.

Мовна модель на основі 6-грам.

Така мовна модель має більше контексту, але її не навчали на великій кількості документів, більшість 6-грам зустрічатимуться рідко.

Мовна модель на основі 5-грам.

Така мовна модель має менше контексту, тому навряд чи перевершить 6-грамну.

Перевірте свої знання (10 хв)

Далі

Що таке велика мовна модель (15 хв)