Введение в модели больших языков

Новичок в языковых моделях или больших языковых моделях? Ознакомьтесь с ресурсами ниже.

Что такое языковая модель?

Языковая модель — это модель машинного обучения, целью которой является прогнозирование и создание правдоподобного языка. Например, автозаполнение — это языковая модель.

Эти модели работают, оценивая вероятность того, что токен или последовательность токенов встречаются в более длинной последовательности токенов. Рассмотрим следующее предложение:

When I hear rain on my roof, I _______ in my kitchen.

Если вы предполагаете, что токен — это слово, то языковая модель определяет вероятность того, что разные слова или последовательности слов заменят это подчеркивание. Например, языковая модель может определять следующие вероятности:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

«Последовательность токенов» может быть целым предложением или серией предложений. То есть языковая модель могла вычислять вероятность различных полных предложений или блоков текста.

Оценка вероятности того, что будет дальше в последовательности, полезна для самых разных вещей: генерация текста, перевод языков и ответы на вопросы, и это лишь некоторые из них.

Что такое большая языковая модель?

Масштабное моделирование человеческого языка — очень сложная и ресурсоемкая задача. Путь к достижению текущих возможностей языковых моделей и больших языковых моделей занял несколько десятилетий.

По мере того, как модели строятся все больше и больше, их сложность и эффективность возрастают. Ранние языковые модели могли предсказывать вероятность появления отдельного слова; современные большие языковые модели могут предсказывать вероятность предложений, абзацев или даже целых документов.

Размер и возможности языковых моделей резко выросли за последние несколько лет по мере увеличения компьютерной памяти, размера набора данных и вычислительной мощности, а также разработки более эффективных методов моделирования более длинных текстовых последовательностей.

Насколько большой?

Определение нечеткое, но термин «большой» используется для описания BERT (110 миллионов параметров), а также PaLM 2 (до 340 миллиардов параметров).

Параметры — это веса, полученные моделью во время обучения, используемые для прогнозирования следующего токена в последовательности. «Большой» может относиться либо к количеству параметров в модели, либо иногда к количеству слов в наборе данных.

Трансформеры

Ключевым событием в языковом моделировании стало появление в 2017 году Transformers, архитектуры, основанной на идее внимания . Это позволило обрабатывать более длинные последовательности, сосредоточив внимание на наиболее важной части входных данных, решив проблемы с памятью, встречавшиеся в более ранних моделях.

Преобразователи — это передовая архитектура для самых разных приложений языковых моделей, таких как переводчики.

Если ввод «Я хорошая собака». , транслятор на основе Transformer преобразует этот ввод в вывод «Je suis un bon chien». , то есть то же самое предложение, переведенное на французский язык.

Полные преобразователи состоят из кодера и декодера . Кодер преобразует входной текст в промежуточное представление, а декодер преобразует это промежуточное представление в полезный текст.

внимание к себе

Трансформеры в значительной степени полагаются на концепцию, называемую вниманием к себе. Я-часть само-внимания относится к «эгоцентрической» направленности каждой лексемы в корпусе. По сути, от имени каждого знака ввода само-внимание спрашивает: «Насколько важны для меня все остальные знаки ввода?» Для упрощения предположим, что каждая лексема — это слово, а полный контекст — это одно предложение. Рассмотрим следующее предложение:

Животное не перешло улицу, потому что слишком устало.

В предыдущем предложении 11 слов, поэтому каждое из 11 слов обращает внимание на остальные десять, задаваясь вопросом, насколько каждое из этих десяти слов имеет для них значение. Например, обратите внимание, что в предложении есть местоимение it . Местоимения часто неоднозначны. Местоимение it всегда относится к недавнему существительному, но в примере предложения к какому недавнему существительному оно относится: к животному или к улице?

Механизм внутреннего внимания определяет релевантность каждого соседнего слова местоимению it .

Каковы некоторые варианты использования LLM?

LLM очень эффективно справляются с задачей, для которой они были созданы, а именно с созданием наиболее правдоподобного текста в ответ на вводимые данные. Они даже начинают показывать хорошие результаты в других задачах; например, обобщение, ответы на вопросы и классификация текста. Это так называемые эмерджентные способности . LLM могут даже решать некоторые математические задачи и писать код (хотя рекомендуется проверять их работу).

LLM отлично имитируют образцы человеческой речи. Среди прочего, они отлично сочетают информацию с разными стилями и тонами.

Однако LLM могут быть компонентами моделей, которые делают больше, чем просто генерируют текст. Последние LLM использовались для создания детекторов настроений, классификаторов токсичности и создания подписей к изображениям.

Соображения LLM

Модели такого размера не лишены недостатков.

Крупнейшие LLM стоят дорого. Их обучение может занять месяцы, и в результате они потребляют много ресурсов.

Их также обычно можно перепрофилировать для других задач, что является ценной серебряной подкладкой.

Учебные модели с более чем триллионом параметров создают инженерные проблемы. Для координации потока к чипам и обратно требуется специальная инфраструктура и методы программирования.

Есть способы снизить стоимость этих больших моделей. Два подхода — автономный вывод и дистилляция .

Смещение может быть проблемой в очень больших моделях, и его следует учитывать при обучении и развертывании.

Поскольку эти модели обучаются человеческому языку, это может привести к многочисленным потенциальным этическим проблемам, включая неправильное использование языка и предвзятость по признаку расы, пола, религии и т. д.

Должно быть ясно, что по мере того, как эти модели продолжают расти и работать лучше, необходимо постоянно уделять внимание пониманию и смягчению их недостатков. Узнайте больше о подходе Google к ответственному искусственному интеллекту .