Введение в большие языковые модели

Вы впервые знакомы с языковыми моделями или большими языковыми моделями? Ознакомьтесь с ресурсами ниже.

Что такое языковая модель?

Языковая модель — это модель машинного обучения, целью которой является прогнозирование и создание правдоподобного языка. Например, автозаполнение — это языковая модель.

Эти модели работают путем оценки вероятности появления токена или последовательности токенов в более длинной последовательности токенов. Рассмотрим следующее предложение:

When I hear rain on my roof, I _______ in my kitchen.

Если вы предполагаете, что токен — это слово, то языковая модель определяет вероятность того, что разные слова или последовательности слов заменят это подчеркивание. Например, языковая модель может определять следующие вероятности:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

«Последовательность токенов» может представлять собой целое предложение или серию предложений. То есть языковая модель может рассчитывать вероятность появления различных целых предложений или блоков текста.

Оценка вероятности того, что будет дальше в последовательности, полезна для самых разных задач: создания текста, перевода языков, ответов на вопросы и т. д.

Что такое большая языковая модель?

Масштабное моделирование человеческого языка — очень сложная и ресурсоемкая задача. Путь к достижению текущих возможностей языковых моделей и больших языковых моделей занял несколько десятилетий.

По мере того, как модели становятся все крупнее и крупнее, их сложность и эффективность возрастают. Ранние языковые модели могли предсказать вероятность появления одного слова; современные модели большого языка могут предсказывать вероятность предложений, абзацев или даже целых документов.

Размер и возможности языковых моделей резко возросли за последние несколько лет по мере увеличения компьютерной памяти, размера набора данных и вычислительной мощности, а также разработки более эффективных методов моделирования более длинных текстовых последовательностей.

Насколько велик большой?

Определение нечеткое, но «большой» использовался для описания BERT (параметров 110M), а также PaLM 2 (параметров до 340B).

Параметры — это веса, которые модель узнала во время обучения и которые используются для прогнозирования следующего токена в последовательности. «Большой» может относиться либо к количеству параметров в модели, либо иногда к количеству слов в наборе данных.

Трансформеры

Ключевым достижением в языковом моделировании стало появление в 2017 году Transformers — архитектуры, основанной на идее внимания . Это позволило обрабатывать более длинные последовательности, сосредоточив внимание на наиболее важной части входных данных, решая проблемы с памятью, возникавшие в более ранних моделях.

Трансформаторы — это современная архитектура для широкого спектра приложений языковых моделей, таких как переводчики.

Если введено «Я хорошая собака». , транслятор на основе Transformer преобразует эти входные данные в выходные данные «Je suis un bon chien». , это то же предложение, переведенное на французский язык.

Полные трансформаторы состоят из кодера и декодера . Кодер преобразует входной текст в промежуточное представление, а декодер преобразует это промежуточное представление в полезный текст.

Внимание к себе

Трансформеры во многом полагаются на концепцию, называемую самовниманием. Часть внимания к себе относится к «эгоцентрической» направленности каждого токена в корпусе. Фактически, от имени каждого входного сигнала самовнимание спрашивает: «Насколько важен для меня каждый второй входной сигнал?» Чтобы упростить ситуацию, давайте предположим, что каждый токен представляет собой слово, а полный контекст — это одно предложение. Рассмотрим следующее предложение:

Животное не перешло улицу, потому что слишком устало.

В предыдущем предложении 11 слов, поэтому каждое из 11 слов обращает внимание на остальные десять, задаваясь вопросом, насколько каждое из этих десяти слов имеет для них значение. Например, обратите внимание, что в предложении есть местоимение it . Местоимения часто неоднозначны. Местоимение it всегда относится к недавнему существительному, но в примере предложения к какому недавнему существительному оно относится: к животному или улице?

Механизм самообслуживания определяет соответствие каждого соседнего слова местоимению it .

Каковы некоторые варианты использования LLM?

LLM очень эффективны в решении задачи, для которой они были созданы, а именно генерации наиболее правдоподобного текста в ответ на вводимые данные. Они даже начинают показывать хорошие результаты при выполнении других задач; например, обобщение, ответы на вопросы и классификация текста. Это так называемые эмерджентные способности . LLM могут даже решать некоторые математические задачи и писать код (хотя желательно проверять их работу).

LLM превосходно имитируют человеческую речь. Помимо прочего, они великолепно сочетают информацию в разных стилях и тонах.

Однако LLM могут быть компонентами моделей, которые не просто генерируют текст. Последние LLM использовались для создания детекторов настроений, классификаторов токсичности и создания подписей к изображениям.

Соображения по программе LLM

Модели такого размера не лишены недостатков.

Крупнейшие LLM стоят дорого. На их обучение могут уйти месяцы, и в результате это потребует много ресурсов.

Их также обычно можно перепрофилировать для других задач, что является ценным плюсом.

Обучение моделей с более чем триллионом параметров создает инженерные проблемы. Для координации потока к чипам и обратно требуются специальная инфраструктура и методы программирования.

Есть способы снизить затраты на эти большие модели. Два подхода — автономный вывод и дистилляция .

Смещение может быть проблемой в очень больших моделях, и его следует учитывать при обучении и развертывании.

Поскольку эти модели обучены человеческому языку, это может привести к многочисленным потенциальным этическим проблемам, включая неправильное использование языка, предвзятость по признаку расы, пола, религии и многое другое.

Должно быть ясно, что по мере того, как эти модели продолжают становиться больше и работать лучше, необходимо по-прежнему внимательно относиться к пониманию и смягчению их недостатков. Узнайте больше о подходе Google к ответственному ИИ .

Узнайте больше о LLM

Хотите более подробно познакомиться с большими языковыми моделями? Ознакомьтесь с новым модулем «Большие языковые модели» в ускоренном курсе машинного обучения .