Вы впервые знакомы с языковыми моделями или большими языковыми моделями? Ознакомьтесь с ресурсами ниже.
Что такое языковая модель?
Языковая модель — это модель машинного обучения, целью которой является прогнозирование и создание правдоподобного языка. Например, автозаполнение — это языковая модель.
Эти модели работают путем оценки вероятности появления токена или последовательности токенов в более длинной последовательности токенов. Рассмотрим следующее предложение:
When I hear rain on my roof, I _______ in my kitchen.
Если вы предполагаете, что токен — это слово, то языковая модель определяет вероятность того, что разные слова или последовательности слов заменят это подчеркивание. Например, языковая модель может определять следующие вероятности:
cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...
«Последовательность токенов» может представлять собой целое предложение или серию предложений. То есть языковая модель может рассчитывать вероятность появления различных целых предложений или блоков текста.
Оценка вероятности того, что будет дальше в последовательности, полезна для самых разных задач: создания текста, перевода языков, ответов на вопросы и т. д.
Что такое большая языковая модель?
Масштабное моделирование человеческого языка — очень сложная и ресурсоемкая задача. Путь к достижению текущих возможностей языковых моделей и больших языковых моделей занял несколько десятилетий.
По мере того, как модели становятся все крупнее и крупнее, их сложность и эффективность возрастают. Ранние языковые модели могли предсказать вероятность появления одного слова; современные модели большого языка могут предсказывать вероятность предложений, абзацев или даже целых документов.
Размер и возможности языковых моделей резко возросли за последние несколько лет по мере увеличения компьютерной памяти, размера набора данных и вычислительной мощности, а также разработки более эффективных методов моделирования более длинных текстовых последовательностей.
Насколько велик большой?
Определение нечеткое, но «большой» использовался для описания BERT (параметров 110M), а также PaLM 2 (параметров до 340B).
Параметры — это веса, которые модель узнала во время обучения и которые используются для прогнозирования следующего токена в последовательности. «Большой» может относиться либо к количеству параметров в модели, либо иногда к количеству слов в наборе данных.
Трансформеры
Ключевым достижением в языковом моделировании стало появление в 2017 году Transformers — архитектуры, основанной на идее внимания . Это позволило обрабатывать более длинные последовательности, сосредоточив внимание на наиболее важной части входных данных, решая проблемы с памятью, возникавшие в более ранних моделях.
Трансформаторы — это современная архитектура для широкого спектра приложений языковых моделей, таких как переводчики.
Если введено «Я хорошая собака». , транслятор на основе Transformer преобразует эти входные данные в выходные данные «Je suis un bon chien». , это то же предложение, переведенное на французский язык.
Полные трансформаторы состоят из кодера и декодера . Кодер преобразует входной текст в промежуточное представление, а декодер преобразует это промежуточное представление в полезный текст.
Внимание к себе
Трансформеры во многом полагаются на концепцию, называемую самовниманием. Часть внимания к себе относится к «эгоцентрической» направленности каждого токена в корпусе. Фактически, от имени каждого входного сигнала самовнимание спрашивает: «Насколько важен для меня каждый второй входной сигнал?» Чтобы упростить ситуацию, давайте предположим, что каждый токен представляет собой слово, а полный контекст — это одно предложение. Рассмотрим следующее предложение:
Животное не перешло улицу, потому что слишком устало.
В предыдущем предложении 11 слов, поэтому каждое из 11 слов обращает внимание на остальные десять, задаваясь вопросом, насколько каждое из этих десяти слов имеет для них значение. Например, обратите внимание, что в предложении есть местоимение it . Местоимения часто неоднозначны. Местоимение it всегда относится к недавнему существительному, но в примере предложения к какому недавнему существительному оно относится: к животному или улице?
Механизм самообслуживания определяет соответствие каждого соседнего слова местоимению it .
Каковы некоторые варианты использования LLM?
LLM очень эффективны в решении задачи, для которой они были созданы, а именно генерации наиболее правдоподобного текста в ответ на вводимые данные. Они даже начинают показывать хорошие результаты при выполнении других задач; например, обобщение, ответы на вопросы и классификация текста. Это так называемые эмерджентные способности . LLM могут даже решать некоторые математические задачи и писать код (хотя желательно проверять их работу).
LLM превосходно имитируют человеческую речь. Помимо прочего, они великолепно сочетают информацию в разных стилях и тонах.
Однако LLM могут быть компонентами моделей, которые не просто генерируют текст. Последние LLM использовались для создания детекторов настроений, классификаторов токсичности и создания подписей к изображениям.
Соображения по программе LLM
Модели такого размера не лишены недостатков.
Крупнейшие LLM стоят дорого. На их обучение могут уйти месяцы, и в результате это потребует много ресурсов.
Их также обычно можно перепрофилировать для других задач, что является ценным плюсом.
Обучение моделей с более чем триллионом параметров создает инженерные проблемы. Для координации потока к чипам и обратно требуются специальная инфраструктура и методы программирования.
Есть способы снизить затраты на эти большие модели. Два подхода — автономный вывод и дистилляция .
Смещение может быть проблемой в очень больших моделях, и его следует учитывать при обучении и развертывании.
Поскольку эти модели обучены человеческому языку, это может привести к многочисленным потенциальным этическим проблемам, включая неправильное использование языка, предвзятость по признаку расы, пола, религии и многое другое.
Должно быть ясно, что по мере того, как эти модели продолжают становиться больше и работать лучше, необходимо по-прежнему внимательно относиться к пониманию и смягчению их недостатков. Узнайте больше о подходе Google к ответственному ИИ .
Узнайте больше о LLM
Хотите более подробно познакомиться с большими языковыми моделями? Ознакомьтесь с новым модулем «Большие языковые модели» в ускоренном курсе машинного обучения .