На этой странице содержатся термины глоссария языковой оценки. Чтобы просмотреть все термины глоссария, нажмите здесь .
А
внимание
Механизм, используемый в нейронной сети , который указывает важность определенного слова или части слова. Внимание сжимает объем информации, необходимой модели для прогнозирования следующего токена/слова. Типичный механизм внимания может состоять из взвешенной суммы по набору входных данных, где вес каждого входного сигнала вычисляется другой частью нейронной сети.
Обратитесь также к самовниманию и многоголовому самовниманию , которые являются строительными блоками Трансформеров .
См . LLM: Что такое большая языковая модель? в ускоренном курсе машинного обучения для получения дополнительной информации о самообслуживании.
автоэнкодер
Система, которая учится извлекать наиболее важную информацию из входных данных. Автоэнкодеры представляют собой комбинацию кодера и декодера . Автоэнкодеры полагаются на следующий двухэтапный процесс:
- Кодер преобразует входные данные в (обычно) низкоразмерный (промежуточный) формат с потерями.
- Декодер создает версию исходного ввода с потерями, сопоставляя формат меньшей размерности с исходным входным форматом более высокой размерности.
Автокодировщики обучаются сквозно, заставляя декодер пытаться как можно точнее восстановить исходный входной сигнал из промежуточного формата кодера. Поскольку промежуточный формат меньше (меньшая размерность), чем исходный формат, автокодировщику приходится узнавать, какая информация на входе важна, и выходные данные не будут полностью идентичны входным.
Например:
- Если входные данные представляют собой графику, неточная копия будет похожа на исходную графику, но несколько изменена. Возможно, неточная копия удаляет шум из исходной графики или заполняет некоторые недостающие пиксели.
- Если входные данные представляют собой текст, автокодировщик сгенерирует новый текст, который имитирует (но не идентичен) исходному тексту.
См. также вариационные автоэнкодеры .
автоматическая оценка
Использование программного обеспечения для оценки качества вывода модели.
Если выходные данные модели относительно просты, сценарий или программа могут сравнить выходные данные модели с золотым ответом . Этот тип автоматической оценки иногда называют программной оценкой . Такие показатели, как ROUGE или BLEU, часто полезны для программной оценки.
Если выходные данные модели сложны или не имеют единственного правильного ответа , отдельная программа машинного обучения, называемая авторейтером, иногда выполняет автоматическую оценку.
Сравните с человеческой оценкой .
авторейтерская оценка
Гибридный механизм оценки качества результатов генеративной модели ИИ , сочетающий человеческую оценку с автоматической оценкой . Авторрейтер — это модель машинного обучения, обученная на данных, полученных в результате оценки человеком . В идеале авторрейтер учится подражать оценщику-человеку.Доступны готовые авторейтинги, но лучшие авторейтинги точно настроены специально для задачи, которую вы оцениваете.
авторегрессионная модель
Модель , которая делает прогноз на основе собственных предыдущих прогнозов. Например, авторегрессионные языковые модели прогнозируют следующий токен на основе ранее предсказанных токенов. Все модели большого языка на основе Transformer являются авторегрессионными.
Напротив, модели изображений на основе GAN обычно не являются авторегрессионными, поскольку они генерируют изображение за один проход вперед, а не поэтапно итеративно. Однако некоторые модели генерации изображений являются авторегрессионными, поскольку они генерируют изображение поэтапно.
средняя точность при k
Метрика для подведения итогов эффективности модели в одном запросе, который генерирует ранжированные результаты, например нумерованный список рекомендаций по книгам. Средняя точность при k — это среднее значение точности при значениях k для каждого соответствующего результата. Таким образом, формула средней точности при k выглядит следующим образом:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
где:
- \(n\) — количество соответствующих элементов в списке.
Сравните с отзывом в k .
Б
мешок слов
Представление слов во фразе или отрывке независимо от порядка. Например, мешок слов одинаково представляет следующие три фразы:
- собака прыгает
- прыгает на собаку
- собака прыгает
Каждое слово сопоставляется с индексом в разреженном векторе , где вектор имеет индекс для каждого слова в словаре. Например, фраза «собака прыгает» отображается в вектор признаков с ненулевыми значениями по трем индексам, соответствующим словам « собака» и «прыжки» . Ненулевое значение может быть любым из следующих:
- 1 указывает на наличие слова.
- Подсчет количества раз, когда слово появляется в сумке. Например, если фраза «бордовая собака» — это собака с бордовой шерстью , то и «бордовый» , и «собака» будут представлены как 2, а другие слова будут представлены как 1.
- Некоторое другое значение, например логарифм количества раз, которое слово появляется в сумке.
BERT (представления двунаправленного кодировщика от трансформаторов)
Архитектура модели для представления текста. Обученная модель BERT может действовать как часть более крупной модели для классификации текста или других задач машинного обучения.
BERT имеет следующие характеристики:
- Использует архитектуру Transformer и поэтому полагается на самообслуживание .
- Использует кодирующую часть Transformer. Задача кодировщика — создавать хорошие текстовые представления, а не выполнять конкретную задачу, например классификацию.
- Является двунаправленным .
- Использует маскировку для обучения без присмотра .
Варианты BERT включают:
Обзор BERT см. в разделе «Открытый исходный код BERT: современное предварительное обучение обработке естественного языка» .
двунаправленный
Термин, используемый для описания системы, которая оценивает текст, который предшествует и следует за целевым разделом текста. Напротив, однонаправленная система оценивает только текст, который предшествует целевому разделу текста.
Например, рассмотрим модель языка в масках , которая должна определять вероятности для слова или слов, представляющих подчеркивание в следующем вопросе:
Что с тобой _____?
Однонаправленная языковая модель должна была бы основывать свои вероятности только на контексте, обеспечиваемом словами «Что», «есть» и «the». Напротив, двунаправленная языковая модель также может получать контекст от слов «с» и «вы», что может помочь модели генерировать более точные прогнозы.
двунаправленная языковая модель
Языковая модель , определяющая вероятность присутствия данного токена в заданном месте во фрагменте текста на основе предыдущего и последующего текста.
биграмма
N-грамма, в которой N=2.
BLEU (дублёр двуязычной оценки)
Метрика от 0,0 до 1,0 для оценки машинного перевода , например, с испанского на японский.
Для расчета оценки BLEU обычно сравнивает перевод модели ML ( сгенерированный текст ) с переводом эксперта ( справочный текст ). Степень соответствия N-грамм в сгенерированном тексте и тексте ссылки определяет оценку BLEU.
Оригинальная статья по этой метрике — BLEU: метод автоматической оценки машинного перевода .
См. также БЛЕРТ .
БЛЕУРТ (дублёр двуязычной оценки из «Трансформеров»)
Метрика для оценки машинного перевода с одного языка на другой, особенно на английский и с английского.
Для переводов на английский и с английского язык BLEURT более точно соответствует человеческим рейтингам, чем BLEU . В отличие от BLEU, BLEURT подчеркивает семантическое (значительное) сходство и допускает перефразирование.
BLEURT опирается на предварительно обученную модель большого языка (точнее, BERT ), которая затем настраивается на текст, полученный от переводчиков-людей.
Оригинальная статья по этой метрике — BLEURT: Learning Robust Metrics for Text Generation .
С
причинно-языковая модель
Синоним однонаправленной языковой модели .
См. двунаправленную языковую модель , чтобы сравнить различные направленные подходы к языковому моделированию.
подсказка по цепочке мыслей
Метод быстрого проектирования , который побуждает большую языковую модель (LLM) шаг за шагом объяснять свои рассуждения. Например, рассмотрите следующую подсказку, уделив особое внимание второму предложению:
Какую силу перегрузки испытает водитель автомобиля, разгоняющегося от 0 до 60 миль в час за 7 секунд? В ответе покажите все соответствующие расчеты.
Ответ LLM, скорее всего, будет следующим:
- Покажите последовательность физических формул, вставляя значения 0, 60 и 7 в соответствующие места.
- Объясните, почему он выбрал именно эти формулы и что означают различные переменные.
Подсказки по цепочке мыслей заставляют LLM выполнять все вычисления, которые могут привести к более правильному ответу. Кроме того, подсказки по цепочке мыслей позволяют пользователю изучить шаги LLM, чтобы определить, имеет ли ответ смысл.
чат
Содержимое двустороннего диалога с системой машинного обучения, обычно это большая языковая модель . Предыдущее взаимодействие в чате (то, что вы набрали и как ответила большая языковая модель) становится контекстом для последующих частей чата.
Чат-бот — это приложение большой языковой модели.
болтовня
Синоним галлюцинации .
Конфабуляция, вероятно, более технически точный термин, чем галлюцинация. Однако первой популярностью стали пользоваться галлюцинации.
анализ избирательного округа
Деление предложения на более мелкие грамматические конструкции («составные»). Более поздняя часть системы машинного обучения, такая как модель понимания естественного языка , может анализировать составляющие легче, чем исходное предложение. Например, рассмотрим следующее предложение:
Мой друг взял двух кошек.
Анализатор избирательного округа может разделить это предложение на следующие две составляющие:
- Мой друг — существительное.
- усыновил двух кошек — это глагольная фраза.
Эти составляющие можно разделить на более мелкие составляющие. Например, глагольная группа
взял двух кошек
можно дополнительно разделить на:
- принято – это глагол.
- две кошки — еще одна существительная группа.
контекстуализированное языковое встраивание
Встраивание , близкое к «пониманию» слов и фраз так, как это могут делать носители языка. Контекстуализированные языковые внедрения могут понимать сложный синтаксис, семантику и контекст.
Например, рассмотрим встраивание английского слова «cow» . Старые внедрения, такие как word2vec, могут представлять английские слова таким образом, что расстояние в пространстве встраивания от коровы до быка аналогично расстоянию от овцы (овцы-самки) до барана (овцы-самцы) или от самки до самца . Контекстуализированные языковые встраивания могут пойти еще дальше, признав, что носители английского языка иногда случайно используют слово « корова» для обозначения либо коровы, либо быка.
контекстное окно
Количество токенов, которые модель может обработать в заданном приглашении . Чем больше контекстное окно, тем больше информации модель может использовать для предоставления последовательных и последовательных ответов на запрос.
крах цветения
Предложение или фраза с неоднозначным смыслом. Цветение сбоев представляет собой серьезную проблему в понимании естественного языка . Например, заголовок «Красная лента держит небоскреб» — это настоящий крах, потому что модель NLU может интерпретировать заголовок буквально или фигурально.
Д
декодер
В общем, любая система машинного обучения, которая преобразуется из обработанного, плотного или внутреннего представления в более необработанное, разреженное или внешнее представление.
Декодеры часто являются компонентами более крупных моделей, где они часто работают в паре с кодером .
В задачах преобразования последовательности в последовательность декодер начинает с внутреннего состояния, сгенерированного кодером, для прогнозирования следующей последовательности.
Обратитесь к Transformer для определения декодера в архитектуре Transformer.
Дополнительные сведения см. в разделе «Большие языковые модели» в ускоренном курсе машинного обучения.
шумоподавление
Общий подход к самостоятельному обучению , при котором:
Шумоподавление позволяет учиться на немаркированных примерах . Исходный набор данных служит целью или меткой , а зашумленные данные — входными данными.
Некоторые модели языка в масках используют шумоподавление следующим образом:
- Шум искусственно добавляется к непомеченному предложению путем маскировки некоторых токенов.
- Модель пытается предсказать исходные токены.
прямое побуждение
Синоним подсказки с нулевым выстрелом .
Э
изменить расстояние
Измерение того, насколько похожи две текстовые строки друг на друга. В машинном обучении расстояние редактирования полезно по следующим причинам:
- Расстояние редактирования легко вычислить.
- Расстояние редактирования позволяет сравнивать две строки, которые, как известно, похожи друг на друга.
- Расстояние редактирования может определять степень сходства различных строк с данной строкой.
Существует несколько определений расстояния редактирования, каждое из которых использует разные строковые операции. См. пример расстояния Левенштейна .
слой внедрения
Специальный скрытый слой , который обучается на многомерном категориальном признаке для постепенного изучения вектора внедрения более низкого измерения. Слой внедрения позволяет нейронной сети обучаться гораздо эффективнее, чем обучение только на многомерном категориальном признаке.
Например, на Земле в настоящее время произрастает около 73 000 видов деревьев. Предположим, что виды деревьев являются признаком вашей модели, поэтому входной слой вашей модели включает в себя вектор длиной 73 000 элементов. Например, возможно, baobab
можно было бы представить примерно так:
Массив из 73 000 элементов очень длинный. Если вы не добавите в модель слой внедрения, обучение займет очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете слой внедрения, состоящий из 12 измерений. Следовательно, слой внедрения постепенно изучает новый вектор внедрения для каждой породы деревьев.
В определенных ситуациях хеширование является разумной альтернативой слою внедрения.
Дополнительную информацию см. в разделе «Внедрения в ускоренный курс машинного обучения».
пространство для встраивания
Сопоставляется d-мерное векторное пространство, являющееся частью векторного пространства более высокой размерности. В идеале пространство встраивания содержит структуру, которая дает значимые математические результаты; например, в идеальном пространстве вложений сложение и вычитание вложений могут решить задачи по аналогии слов.
Скалярное произведение двух вложений является мерой их сходства.
вектор внедрения
Грубо говоря, массив чисел с плавающей запятой, взятый из любого скрытого слоя и описывающий входные данные этого скрытого слоя. Часто вектор внедрения представляет собой массив чисел с плавающей запятой, обученный на слое внедрения. Например, предположим, что слой внедрения должен изучить вектор внедрения для каждого из 73 000 видов деревьев на Земле. Возможно, следующий массив является вектором внедрения дерева баобаба:
Вектор внедрения — это не набор случайных чисел. Слой внедрения определяет эти значения посредством обучения, аналогично тому, как нейронная сеть изучает другие веса во время обучения. Каждый элемент массива представляет собой рейтинг по некоторой характеристике породы дерева. Какой элемент представляет характеристику какой породы деревьев? Людям это очень сложно определить.
Математически примечательная часть вектора внедрения заключается в том, что аналогичные элементы имеют одинаковые наборы чисел с плавающей запятой. Например, похожие породы деревьев имеют более похожий набор чисел с плавающей запятой, чем разные породы деревьев. Секвойи и секвойи являются родственными породами деревьев, поэтому у них будет более похожий набор чисел с плавающей запятой, чем у секвой и кокосовых пальм. Числа в векторе внедрения будут меняться каждый раз, когда вы переобучаете модель, даже если вы переобучаете модель с идентичными входными данными.
кодер
В общем, любая система машинного обучения, которая преобразует необработанное, разреженное или внешнее представление в более обработанное, более плотное или более внутреннее представление.
Кодеры часто являются компонентом более крупной модели, где они часто работают в паре с декодером . Некоторые Трансформеры объединяют кодеры с декодерами, хотя другие Трансформеры используют только кодер или только декодер.
Некоторые системы используют выходные данные кодировщика в качестве входных данных для сети классификации или регрессии.
В задачах «последовательность-последовательность» кодер принимает входную последовательность и возвращает внутреннее состояние (вектор). Затем декодер использует это внутреннее состояние для прогнозирования следующей последовательности.
Обратитесь к Transformer для определения кодера в архитектуре Transformer.
Дополнительную информацию см. в разделе LLM: Что такое большая языковая модель в ускоренном курсе машинного обучения.
оценивает
В основном используется как аббревиатура для оценок LLM . В более широком смысле, evals — это аббревиатура, обозначающая любую форму оценки .
оценка
Процесс измерения качества модели или сравнения различных моделей друг с другом.
Чтобы оценить модель контролируемого машинного обучения , вы обычно сравниваете ее с набором проверки и набором тестов . Оценка LLM обычно включает в себя более широкую оценку качества и безопасности.
Ф
подсказка из нескольких кадров
Приглашение , содержащее более одного («несколько») примеров, демонстрирующих, как должна реагировать большая языковая модель . Например, следующая длинная подсказка содержит два примера, показывающие большую языковую модель, как отвечать на запрос.
Части одной подсказки | Примечания |
---|---|
Какая официальная валюта указанной страны? | Вопрос, на который вы хотите получить ответ от LLM. |
Франция: евро | Один пример. |
Великобритания: фунт стерлингов. | Другой пример. |
Индия: | Фактический запрос. |
Подсказки с небольшим количеством шагов обычно дают более желательные результаты, чем подсказки с нулевым шагом и одноразовые подсказки . Однако подсказка с несколькими выстрелами требует более длинной подсказки.
Подсказки в несколько этапов — это форма обучения в несколько этапов, применяемая к обучению на основе подсказок .
Дополнительную информацию см. в разделе «Быстрое проектирование» в ускоренном курсе машинного обучения.
скрипка
Библиотека конфигурации, ориентированная на Python, которая устанавливает значения функций и классов без инвазивного кода или инфраструктуры. В случае Pax и других баз кода ML эти функции и классы представляют модели и гиперпараметры обучения .
Фиддл предполагает, что базы кода машинного обучения обычно делятся на:
- Код библиотеки, определяющий слои и оптимизаторы.
- «Склеивающий» код набора данных, который вызывает библиотеки и связывает все воедино.
Fiddle фиксирует структуру вызовов связующего кода в неоцененной и изменяемой форме.
тонкая настройка
Второй проход обучения для конкретной задачи, выполняемый на предварительно обученной модели для уточнения ее параметров для конкретного варианта использования. Например, полная последовательность обучения для некоторых больших языковых моделей выглядит следующим образом:
- Предварительное обучение: обучите большую языковую модель на обширном общем наборе данных, например на всех англоязычных страницах Википедии.
- Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например ответа на медицинские запросы. Точная настройка обычно включает сотни или тысячи примеров, ориентированных на конкретную задачу.
В качестве другого примера полная последовательность обучения для модели большого изображения выглядит следующим образом:
- Предварительное обучение: обучите большую модель изображения на обширном общем наборе данных изображений, например на всех изображениях в Wikimedia Commons.
- Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например генерации изображений косаток.
Точная настройка может включать любую комбинацию следующих стратегий:
- Изменение всех существующих параметров предварительно обученной модели. Иногда это называют полной тонкой настройкой .
- Изменение только некоторых существующих параметров предварительно обученной модели (обычно слоев, ближайших к выходному слою ), сохраняя при этом другие существующие параметры неизменными (обычно слои, ближайшие к входному слою ). См. настройку с эффективным использованием параметров .
- Добавление дополнительных слоев, обычно поверх существующих слоев, ближайших к выходному слою.
Точная настройка — это форма трансферного обучения . Таким образом, при точной настройке может использоваться другая функция потерь или другой тип модели, чем те, которые используются для обучения предварительно обученной модели. Например, вы можете точно настроить предварительно обученную модель большого изображения для создания регрессионной модели, которая возвращает количество птиц во входном изображении.
Сравните и сопоставьте тонкую настройку со следующими терминами:
Дополнительные сведения см. в разделе «Точная настройка ускоренного курса машинного обучения».
Лен
Высокопроизводительная библиотека с открытым исходным кодом для глубокого обучения, построенная на основе JAX . Flax предоставляет функции для обучения нейронных сетей , а также методы оценки их производительности.
льноформер
Библиотека Transformer с открытым исходным кодом, построенная на Flax и предназначенная в первую очередь для обработки естественного языка и мультимодальных исследований.
Г
Близнецы
Экосистема, включающая самый передовой искусственный интеллект Google. К элементам этой экосистемы относятся:
- Различные модели Gemini .
- Интерактивный диалоговый интерфейс модели Gemini . Пользователи вводят запросы, и Gemini отвечает на эти запросы.
- Различные API Gemini.
- Различные бизнес-продукты на основе моделей Gemini; например, Gemini для Google Cloud .
Модели Близнецов
Новейшие мультимодальные модели Google на основе Transformer . Модели Gemini специально разработаны для интеграции с агентами .
Пользователи могут взаимодействовать с моделями Gemini различными способами, в том числе через интерактивный диалоговый интерфейс и через SDK.
сгенерированный текст
В общем, текст, который выводит модель машинного обучения. При оценке больших языковых моделей некоторые метрики сравнивают сгенерированный текст с ссылочным текстом . Например, предположим, что вы пытаетесь определить, насколько эффективно модель машинного обучения переводится с французского на голландский. В этом случае:
- Сгенерированный текст представляет собой голландский перевод, который выводит модель машинного обучения.
- Справочный текст — это голландский перевод, созданный переводчиком-человеком (или программным обеспечением).
Обратите внимание, что некоторые стратегии оценки не включают справочный текст.
генеративный ИИ
Возникающее преобразующее поле без формального определения. Тем не менее, большинство экспертов сходятся во мнении, что генеративные модели ИИ могут создавать («генерировать») контент, который имеет все следующие характеристики:
- сложный
- последовательный
- оригинальный
Например, генеративная модель ИИ может создавать сложные эссе или изображения.
Некоторые более ранние технологии, включая LSTM и RNN , также могут генерировать оригинальный и связный контент. Некоторые эксперты рассматривают эти более ранние технологии как генеративный ИИ, в то время как другие считают, что настоящий генеративный ИИ требует более сложных результатов, чем те, которые могут произвести более ранние технологии.
Сравните с прогнозным ML .
золотой ответ
Заведомо хороший ответ. Например, учитывая следующую подсказку :
2 + 2
Надеемся, что золотой ответ будет следующим:
4
GPT (Генераторный предварительно обученный трансформатор)
Семейство больших языковых моделей на основе Transformer , разработанное OpenAI .
Варианты GPT могут применяться к нескольким модальностям , в том числе:
- генерация изображений (например, ImageGPT)
- генерация текста в изображение (например, DALL-E ).
ЧАС
галлюцинация
Производство кажущихся правдоподобными, но на самом деле неверных результатов с помощью генеративной модели ИИ , которая якобы делает утверждение о реальном мире. Например, генеративная модель искусственного интеллекта, утверждающая, что Барак Обама умер в 1865 году, является галлюцинацией .
человеческая оценка
Процесс, в котором люди оценивают качество результатов модели ML; например, двуязычные люди оценивают качество модели перевода ML. Человеческая оценка особенно полезна для оценки моделей, которые не имеют единственного правильного ответа .
Сравните с автоматической оценкой и оценкой авторами .
я
обучение в контексте
Синоним « подсказки с несколькими выстрелами» .
л
LaMDA (Языковая модель для диалоговых приложений)
Модель большого языка на основе Transformer , разработанная Google, обученная на большом наборе диалоговых данных, которая может генерировать реалистичные разговорные ответы.
LaMDA: наша революционная технология общения дает обзор.
языковая модель
Модель , которая оценивает вероятность появления токена или последовательности токенов в более длинной последовательности токенов.
большая языковая модель
Как минимум, языковая модель, имеющая очень большое количество параметров . Говоря более неформально, любая языковая модель на основе Transformer , например Gemini или GPT .
скрытое пространство
Синоним встраивания пространства .
Расстояние Левенштейн
Метрика расстояния редактирования , которая рассчитывает наименьшее количество операций удаления, вставки и замены, необходимых для замены одного слова на другое. Например, расстояние Левенштейна между словами «сердце» и «дротики» равно трем, потому что следующие три редактирования — это наименьшее количество изменений, позволяющих превратить одно слово в другое:
- сердце → дорогая (замените «h» на «d»)
- дорогой → дротик (удалить «е»)
- дротик → дартс (вставить «s»)
Обратите внимание, что предыдущая последовательность — не единственный путь из трех изменений.
Магистр права
Аббревиатура для большой языковой модели .
LLM оценки (оценки)
Набор метрик и тестов для оценки производительности больших языковых моделей (LLM). На высоком уровне оценки LLM:
- Помогите исследователям определить области, где LLM нуждается в улучшении.
- Полезны для сравнения различных LLM и определения лучшего LLM для конкретной задачи.
- Помогите гарантировать, что использование LLM безопасно и этически.
ЛоРА
Аббревиатура для адаптивности низкого ранга .
Адаптивность низкого ранга (LoRA)
Эффективный по параметрам метод точной настройки , который «замораживает» предварительно обученные веса модели (таким образом, что их больше нельзя изменить), а затем вставляет в модель небольшой набор обучаемых весов. Этот набор обучаемых весов (также известный как «матрицы обновления») значительно меньше базовой модели и поэтому обучается гораздо быстрее.
LoRA предоставляет следующие преимущества:
- Улучшает качество прогнозов модели для области, к которой применяется точная настройка.
- Точная настройка выполняется быстрее, чем методы, требующие точной настройки всех параметров модели.
- Снижает вычислительные затраты на вывод , позволяя одновременно обслуживать несколько специализированных моделей, использующих одну и ту же базовую модель.
М
модель языка в масках
Языковая модель , которая прогнозирует вероятность того, что токены-кандидаты заполнят пробелы в последовательности. Например, модель языка в масках может вычислить вероятность того, что слова-кандидаты заменят подчеркивание в следующем предложении:
____ в шляпе вернулся.
В литературе обычно вместо подчеркивания используется строка «МАСКА». Например:
"МАСКА" в шапке вернулась.
Большинство современных моделей замаскированного языка являются двунаправленными .
средняя средняя точность при k (mAP@k)
Статистическое среднее всей средней точности при k баллах в наборе проверочных данных. Одним из вариантов использования средней точности при k является оценка качества рекомендаций, генерируемых системой рекомендаций .
Хотя фраза «среднее среднее» звучит избыточно, название показателя вполне подходящее. В конце концов, эта метрика находит среднее значение множественной средней точности при значениях k .
метаобучение
Подмножество машинного обучения, которое обнаруживает или улучшает алгоритм обучения. Система метаобучения также может быть нацелена на обучение модели быстрому изучению новой задачи на основе небольшого объема данных или опыта, полученного при выполнении предыдущих задач. Алгоритмы метаобучения обычно пытаются достичь следующего:
- Улучшите или изучите функции, разработанные вручную (например, инициализатор или оптимизатор).
- Будьте более эффективными в использовании данных и вычислений.
- Улучшить обобщение.
Метаобучение связано с обучением в несколько этапов .
смесь экспертов
Схема повышения эффективности нейронной сети за счет использования только подмножества ее параметров (известного как эксперт ) для обработки данного входного токена или примера . Сеть шлюзов направляет каждый входной токен или пример соответствующему эксперту(ам).
Подробную информацию см. в одном из следующих документов:
- Невероятно большие нейронные сети: разреженная смесь экспертов
- Смешение экспертов с маршрутизацией экспертного выбора
ММИТ
Аббревиатура для мультимодальных инструкций, настроенных .
модальность
Категория данных высокого уровня. Например, числа, текст, изображения, видео и аудио — это пять разных модальностей.
модельный параллелизм
Способ масштабирования обучения или вывода, при котором разные части одной модели размещаются на разных устройствах . Параллелизм моделей позволяет создавать модели, которые слишком велики для размещения на одном устройстве.
Чтобы реализовать параллелизм моделей, система обычно делает следующее:
- Шардирует (делит) модель на более мелкие части.
- Распределяет обучение этих более мелких частей между несколькими процессорами. Каждый процессор обучает свою часть модели.
- Объединяет результаты для создания единой модели.
Параллелизм моделей замедляет обучение.
См. также параллелизм данных .
МЧС
Сокращение от смеси экспертов .
многоголовый самообслуживание
Расширение внутреннего внимания , которое применяет механизм внутреннего внимания несколько раз для каждой позиции во входной последовательности.
Трансформеры представили многоголовое самообслуживание.
мультимодальный, настроенный по инструкции
Модель , настроенная на инструкции , которая может обрабатывать не только текстовые входные данные, например изображения, видео и аудио.
мультимодальная модель
Модель, входные и/или выходные данные которой включают более одной модальности . Например, рассмотрим модель, которая принимает как изображение, так и текстовую подпись (две модальности) в качестве функций и выводит оценку, указывающую, насколько текстовая подпись соответствует изображению. Итак, входные данные этой модели являются мультимодальными, а выходные — унимодальными.
Н
обработка естественного языка
Область обучения компьютеров обрабатывать то, что пользователь сказал или напечатал, с использованием лингвистических правил. Почти вся современная обработка естественного языка основана на машинном обучении.понимание естественного языка
Подмножество обработки естественного языка , определяющее смысл сказанного или напечатанного слова. Понимание естественного языка может выходить за рамки обработки естественного языка и учитывать сложные аспекты языка, такие как контекст, сарказм и настроения.
N-грамм
Упорядоченная последовательность из N слов. Например, по-настоящему безумно – это 2-грамма. Поскольку порядок важен, «безумно по-настоящему» — это разные 2 грамма, чем «по-настоящему безумно» .
Н | Имена для этого типа N-граммы | Примеры |
---|---|---|
2 | биграмм или 2-грамма | пойти, пойти, пообедать, поужинать |
3 | триграмма или 3-грамма | слишком много съел, три слепые мыши, звонит колокол |
4 | 4-граммовый | прогулка в парке, пыль на ветру, мальчик съел чечевицу |
Многие модели понимания естественного языка полагаются на N-граммы, чтобы предсказать следующее слово, которое пользователь напечатает или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, скорее всего, предскажет, что следующим пользователем будут мыши .
Сравните N-граммы с мешком слов , которые представляют собой неупорядоченные наборы слов.
НЛП
Аббревиатура для обработки естественного языка .
НЛУ
Аббревиатура для понимания естественного языка .
нет ни одного правильного ответа (НОРА)
Подсказка с несколькими подходящими ответами. Например, следующая подсказка не имеет единственного правильного ответа:
Расскажи мне анекдот про слонов.
Оценка подсказок, на которые нет ни одного правильного ответа, может оказаться сложной задачей.
НОРА
Аббревиатура, обозначающая « нет единственного правильного ответа» .
О
одноразовая подсказка
Приглашение , содержащее один пример, демонстрирующий, как должна реагировать большая языковая модель . Например, следующая подсказка содержит один пример, показывающий, как большая языковая модель должна отвечать на запрос.
Части одной подсказки | Примечания |
---|---|
Какая официальная валюта указанной страны? | Вопрос, на который вы хотите получить ответ от LLM. |
Франция: евро | Один пример. |
Индия: | Фактический запрос. |
Сравните и сопоставьте одноразовые подсказки со следующими терминами:
П
настройка с эффективным использованием параметров
Набор методов для более эффективной тонкой настройки большой предварительно обученной языковой модели (PLM), чем полная точная настройка . При настройке с эффективным использованием параметров обычно выполняется гораздо меньше параметров , чем при полной точной настройке, но, как правило, создается большая языковая модель , которая работает так же хорошо (или почти так же хорошо), как и большая языковая модель, построенная на основе полной тонкой настройки.
Сравните и сопоставьте эффективную настройку параметров с:
Настройка с эффективным использованием параметров также известна как точная настройка с эффективным использованием параметров .
трубопровод
Форма параллелизма моделей , при которой обработка модели разделена на последовательные этапы, и каждый этап выполняется на отдельном устройстве. Пока этап обрабатывает один пакет, предыдущий этап может работать над следующим пакетом.
См. также поэтапное обучение .
ПЛМ
Аббревиатура предварительно обученной языковой модели .
позиционное кодирование
Метод добавления информации о положении токена в последовательности во встраивание токена. Модели-трансформеры используют позиционное кодирование, чтобы лучше понять взаимосвязь между различными частями последовательности.
Общая реализация позиционного кодирования использует синусоидальную функцию. (В частности, частота и амплитуда синусоидальной функции определяются положением токена в последовательности.) Этот метод позволяет модели Трансформатора научиться обращать внимание на различные части последовательности в зависимости от их положения.
постобученная модель
Свободно определенный термин, который обычно относится к предварительно обученной модели , прошедшей некоторую постобработку, например одно или несколько из следующих действий:
точность при k (precision@k)
Метрика для оценки ранжированного (упорядоченного) списка элементов. Точность в k определяет долю первых k элементов в этом списке, которые являются «релевантными». То есть:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью вычислений.
Релевантность часто бывает субъективной; даже эксперты -оценщики часто расходятся во мнениях относительно того, какие элементы являются релевантными.
Сравните с:
предварительно обученная модель
Обычно это уже обученная модель. Этот термин также может означать ранее обученный вектор внедрения .
Термин «предварительно обученная языковая модель» обычно относится к уже обученной большой языковой модели .
предварительная подготовка
Начальное обучение модели на большом наборе данных. Некоторые предварительно обученные модели являются неуклюжими гигантами и обычно требуют доработки посредством дополнительного обучения. Например, эксперты по машинному обучению могут предварительно обучить большую языковую модель на обширном наборе текстовых данных, например на всех английских страницах в Википедии. После предварительного обучения полученная модель может быть дополнительно уточнена с помощью любого из следующих методов:
- дистилляция
- тонкая настройка
- инструкция по настройке
- настройка с эффективным использованием параметров
- оперативная настройка
быстрый
Любой текст, вводимый в качестве входных данных в большую языковую модель, чтобы заставить модель вести себя определенным образом. Подсказки могут быть короткими, как фраза, или произвольной длины (например, весь текст романа). Подсказки делятся на несколько категорий, включая те, которые показаны в следующей таблице:
Категория подсказки | Пример | Примечания |
---|---|---|
Вопрос | Как быстро может летать голубь? | |
Инструкция | Напишите забавное стихотворение об арбитраже. | Подсказка, которая просит большую языковую модель что-то сделать . |
Пример | Переведите код Markdown в HTML. Например: Уценка: * элемент списка HTML: <ul> <li>элемент списка</li> </ul> | Первое предложение в этом примере приглашения представляет собой инструкцию. Оставшаяся часть приглашения является примером. |
Роль | Объясните, почему градиентный спуск используется при обучении машинному обучению для доктора философии по физике. | Первая часть предложения представляет собой инструкцию; фраза «до степени доктора физики» является ролевой частью. |
Частичный ввод для завершения модели | Премьер-министр Соединенного Королевства живет в | Подсказка частичного ввода может либо внезапно закончиться (как в этом примере), либо закончиться подчеркиванием. |
Генеративная модель ИИ может отвечать на запрос текстом, кодом, изображениями, встраиваниями , видео… почти чем угодно.
быстрое обучение
Способность определенных моделей , позволяющая им адаптировать свое поведение в ответ на произвольный ввод текста ( подсказки ). В типичной парадигме обучения на основе подсказок большая языковая модель реагирует на подсказку, генерируя текст. Например, предположим, что пользователь вводит следующую подсказку:
Кратко изложите третий закон движения Ньютона.
Модель, способная к обучению на основе подсказок, специально не обучена отвечать на предыдущую подсказку. Скорее, модель «знает» множество фактов о физике, много об общих правилах языка и многое о том, что представляет собой вообще полезные ответы. Этих знаний достаточно, чтобы дать (надеюсь) полезный ответ. Дополнительная обратная связь от человека («Этот ответ был слишком сложным» или «Какая реакция?») позволяет некоторым системам обучения на основе подсказок постепенно повышать полезность своих ответов.
быстрый дизайн
Синоним оперативного проектирования .
оперативное проектирование
Искусство создания подсказок , вызывающих желаемые ответы из большой языковой модели . Люди выполняют быстрые инженерные работы. Написание хорошо структурированных подсказок является важной частью обеспечения полезных ответов от большой языковой модели. Оперативное проектирование зависит от многих факторов, в том числе:
- Набор данных, используемый для предварительного обучения и, возможно, точной настройки большой языковой модели.
- Температура и другие параметры декодирования, которые модель использует для генерации ответов.
Дополнительные сведения о написании полезных подсказок см. в разделе «Введение в дизайн подсказок» .
Оперативное проектирование – это синоним оперативного проектирования.
оперативная настройка
Эффективный механизм настройки параметров , который запоминает «префикс», который система добавляет к фактическому приглашению .
Один из вариантов быстрой настройки, иногда называемый настройкой префикса , заключается в добавлении префикса на каждом уровне . Напротив, в большинстве случаев быстрая настройка добавляет только префикс к входному слою .
Р
отзыв в k (recall@k)
Метрика для оценки систем, которые выводят ранжированный (упорядоченный) список элементов. Напомним, что k определяет долю релевантных элементов в первых k элементах этого списка из общего количества возвращенных релевантных элементов.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
Сравните с точностью в k .
справочный текст
Ответ эксперта на подсказку . Например, учитывая следующую подсказку:
Перевести вопрос «Как тебя зовут?» с английского на французский.
Ответ эксперта может быть таким:
Комментарий vous appelez-vous?
Различные метрики (например, ROUGE ) измеряют степень соответствия справочного текста тексту , сгенерированному моделью ML.
подсказка роли
Необязательная часть запроса , определяющая целевую аудиторию для ответа генеративной модели ИИ . Без ролевой подсказки большая языковая модель дает ответ, который может оказаться полезным, а может и не оказаться полезным для человека, задающего вопросы. Благодаря подсказке о роли большая языковая модель может ответить более подходящим и более полезным для конкретной целевой аудитории способом. Например, часть подсказки о роли в следующих подсказках выделена жирным шрифтом:
- Кратко изложите эту статью для доктора экономических наук .
- Опишите, как приливы действуют на десятилетнего ребенка .
- Объясните финансовый кризис 2008 года. Разговаривайте так, как если бы вы разговаривали с маленьким ребенком или золотистым ретривером.
ROUGE (Дублер, ориентированный на отзыв, для оценки Gisting)
Семейство метрик, которые оценивают модели автоматического суммирования и машинного перевода . Метрики ROUGE определяют степень, в которой ссылочный текст перекрывает текст, сгенерированный моделью ML. Каждый член семейства ROUGE измеряет перекрытие по-своему. Более высокие баллы ROUGE указывают на большее сходство между текстом ссылки и сгенерированным текстом, чем более низкие баллы ROUGE.
Каждый член семейства ROUGE обычно генерирует следующие показатели:
- Точность
- Отзывать
- Ф 1
Подробности и примеры см.:
РУЖ-Л
Член семейства ROUGE сосредоточился на длине самой длинной общей подпоследовательности в справочном и сгенерированном тексте . Следующие формулы рассчитывают полноту и точность ROUGE-L:
Затем вы можете использовать F 1 , чтобы свести отзыв ROUGE-L и точность ROUGE-L в единую метрику:
ROUGE-L игнорирует любые новые строки в справочном и сгенерированном тексте, поэтому самая длинная общая подпоследовательность может пересекать несколько предложений. Когда ссылочный текст и сгенерированный текст состоят из нескольких предложений, вариант ROUGE-L, называемый ROUGE-Lsum, обычно является лучшим показателем. ROUGE-Lsum определяет самую длинную общую подпоследовательность для каждого предложения в отрывке, а затем вычисляет среднее значение этих самых длинных общих подпоследовательностей.
РУЖ-Н
Набор метрик в семействе ROUGE , который сравнивает общие N-граммы определенного размера в справочном и сгенерированном тексте . Например:
- ROUGE-1 измеряет количество общих токенов в справочном и сгенерированном тексте.
- ROUGE-2 измеряет количество общих биграмм (2 грамма) в справочном и сгенерированном тексте.
- ROUGE-3 измеряет количество общих триграмм (3 грамма) в справочном и сгенерированном тексте.
Вы можете использовать следующие формулы для расчета отзыва ROUGE-N и точности ROUGE-N для любого члена семейства ROUGE-N:
Затем вы можете использовать F 1 , чтобы свести отзыв ROUGE-N и точность ROUGE-N в единую метрику:
РУЖ-С
Простая форма ROUGE-N , позволяющая сопоставлять пропуски грамм . То есть ROUGE-N считает только N-граммы , которые точно совпадают, но ROUGE-S также считает N-граммы, разделенные одним или несколькими словами. Например, рассмотрим следующее:
- текст ссылки : Белые облака
- сгенерированный текст : Белые клубящиеся облака.
При расчете ROUGE-N 2-граммовые белые облака не соответствуют белым вздымающимся облакам . Однако при расчете ROUGE-S Белые облака соответствуют Белым вздымающимся облакам .
С
самовнимание (также называемое слоем самовнимания)
Уровень нейронной сети, который преобразует последовательность внедрений (например, внедрений токенов ) в другую последовательность внедрений. Каждое вложение в выходную последовательность создается путем интеграции информации из элементов входной последовательности с помощью механизма внимания .
Часть внимания к себе относится к последовательности, обращенной к себе, а не к какому-то другому контексту. Самообслуживание является одним из основных строительных блоков Transformers и использует терминологию поиска по словарю, такую как «запрос», «ключ» и «значение».
Уровень самообслуживания начинается с последовательности входных представлений, по одному на каждое слово. Входное представление слова может быть простым вложением. Для каждого слова во входной последовательности сеть оценивает релевантность слова каждому элементу всей последовательности слов. Оценки релевантности определяют, насколько окончательное представление слова включает в себя представления других слов.
Например, рассмотрим следующее предложение:
Животное не перешло улицу, потому что слишком устало.
На следующей иллюстрации (из книги «Трансформер: новая архитектура нейронной сети для понимания языка ») показан шаблон внимания уровня самообслуживания для местоимения «it» , при этом темнота каждой линии указывает, насколько каждое слово способствует представлению:
Уровень самовнимания выделяет слова, имеющие отношение к «этому». В этом случае уровень внимания научился выделять слова, к которым он может относиться, придавая наивысший вес животному .
Для последовательности из n токенов самообладание преобразует последовательность вложений n отдельных раз, по одному разу в каждой позиции последовательности.
Обратите внимание также на внимание и многоголовое самовнимание .
анализ настроений
Использование статистических алгоритмов или алгоритмов машинного обучения для определения общего отношения группы — положительного или отрицательного — к услуге, продукту, организации или теме. Например, используя понимание естественного языка , алгоритм может выполнить анализ настроений по текстовой обратной связи университетского курса, чтобы определить, насколько студентам в целом понравился или не понравился курс.
задача последовательности в последовательности
Задача, которая преобразует входную последовательность токенов в выходную последовательность токенов. Например, есть два популярных типа задач «последовательность за последовательностью»:
- Переводчики:
- Пример последовательности ввода: «Я люблю тебя».
- Пример выходной последовательности: «Я люблю тебя».
- Ответ на вопрос:
- Пример последовательности ввода: «Нужна ли мне моя машина в Нью-Йорке?»
- Пример последовательности вывода: «Нет. Пожалуйста, оставьте машину дома».
пропуск грамма
N-грамма , которая может опускать (или «пропускать») слова из исходного контекста, что означает, что N слов изначально могли не быть соседними. Точнее, «k-skip-n-gram» — это n-грамма, для которой может быть пропущено до k слов.
Например, «быстрая коричневая лисица» имеет следующие возможные 2-граммы:
- "быстрый"
- «быстрый коричневый»
- "бурая лиса"
«1-скип-2-грамма» — это пара слов, между которыми есть не более 1 слова. Таким образом, «быстрая бурая лисица» имеет следующие 1-скиповые 2-граммы:
- "коричневый"
- "быстрая лиса"
Кроме того, все 2-граммы также являются 1-пропускными-2-граммами, поскольку можно пропустить менее одного слова.
Пропускные граммы полезны для лучшего понимания контекста, окружающего слово. В примере «Fox» был непосредственно связан с «быстрым» в наборе 1-грамм 1-шкаф, но не в наборе 2 граммов.
Скип-граммы помогают обучать модели встраивания слов .
мягкая быстрая настройка
Техника настройки большой языковой модели для конкретной задачи без ресурсоемкой тонкой настройки . Вместо повторного обучения всех весов в модели мягкая настройка подсказки автоматически корректирует подсказку для достижения той же цели.
Учитывая текстовое приглашение, программная настройка приглашения обычно добавляет к приглашению дополнительные вставки токенов и использует обратное распространение ошибки для оптимизации ввода.
«Жесткое» приглашение содержит фактические токены вместо встраивания токенов.
редкая функция
Функция , значения которых преимущественно нулевые или пустые. Например, функция, содержащая одно 1 значение и значения миллиона 0, является редкой. Напротив, плотная функция имеет значения, которые преимущественно не являются нулевыми или пустыми.
В машинном обучении неожиданное количество функций - редкие функции. Категориальные особенности обычно являются редкими функциями. Например, из 300 возможных видов деревьев в лесу один пример может идентифицировать только кленовое дерево . Или из миллионов возможных видео в видео библиотеке, один пример может идентифицировать только «Касабланку».
В модели вы, как правило, представляете редкие функции с однократным кодированием . Если однокачественное кодирование большое, вы можете поместить встраивающий слой поверх однокачественного кодирования для большей эффективности.
редкое представление
Хранение только позиции (ы) ненулевых элементов в редкой функции.
Например, предположим, что категориальная особенность, названная species
идентифицирует 36 видов деревьев в конкретном лесу. Далее предположим, что каждый пример идентифицирует только один вид.
Вы можете использовать одножелачный вектор для представления видов деревьев в каждом примере. Одножележный вектор будет содержать один 1
(для представления конкретных видов деревьев в этом примере) и 35 0
с (для представления 35 видов деревьев не в этом примере). Таким образом, одножелательное представление о maple
может выглядеть как-то вроде следующего:
В качестве альтернативы, разреженное представление просто идентифицирует положение конкретного вида. Если maple
находится в позиции 24, то разреженное представление о maple
было бы просто:
24
Обратите внимание, что редкое представление гораздо более компактно, чем одножелательное представление.
поэтапное обучение
Тактика обучения модели в последовательности дискретных этапов. Цель может быть либо ускорить тренировочный процесс, либо достичь лучшего качества модели.
Ниже показана иллюстрация подхода прогрессивной укладки:
- Стадия 1 содержит 3 скрытых слоя, этап 2 содержит 6 скрытых слоев, а этапа 3 содержит 12 скрытых слоев.
- Стадия 2 начинает тренировки с весами, изученными в 3 скрытых слоях стадии 1. Стадия 3 начинает тренировки с весами, изученными в 6 скрытых слоях этапа 2.
Смотрите также трубопровод .
токен подвестия
В языковых моделях , токен , который представляет собой подстроение слова, которое может быть всем словом.
Например, слово, подобное «electize», может быть разбито на части «элемент» (корневое слово) и «ize» (суффикс), каждый из которых представлен своим собственным токеном. Разделение необычных слов на такие произведения, называемые подчиками, позволяет языковым моделям работать на более распространенных частях слова, таких как префиксы и суффиксы.
И наоборот, общие слова, такие как «Going», не могут быть разбиты и могут быть представлены одним токеном.
Т
Т5
Модель обучения передачи текста в текст, представленная Google AI в 2020 году . T5 - это модель Encoder - декодер , основанная на архитектуре трансформатора , обученная чрезвычайно большим набором данных. Он эффективен в различных задачах по обработке естественного языка, таких как создание текста, перевод языков и ответы на вопросы в разговорной форме.
T5 получает свое название от Five T в «Трансформатор Text-Text Transfer».
T5X
Основная структура машинного обучения с открытым исходным кодом, предназначенная для создания и обучения крупномасштабных моделей обработки естественного языка (NLP). T5 реализован на кодовой базе T5X (которая построена на JAX и лене ).
температура
Гиперпараметр , который контролирует степень случайности выходных данных модели. Более высокие температуры приводят к более случайному выходному сигналу, тогда как более низкие температуры приводят к менее случайному выходному сигналу.
Выбор оптимальной температуры зависит от конкретного применения и предпочтительных свойств выходной модели. Например, вы, вероятно, повысите температуру при создании приложения, генерирующего творческий результат. И наоборот, вы, вероятно, понизите температуру при построении модели, которая классифицирует изображения или текст, чтобы повысить точность и согласованность модели.
Температура часто используется с softmax .
текстовый промежуток
Индекс массива, связанный с определенным подразделением текстовой строки. Например, слово good
в строке Python s="Be good now"
занимает текстовый промежуток от 3 до 6.
жетон
В языковой модели атомная единица, на которой тренируется модель и делая прогнозы. Токен обычно является одним из следующих:
- Слово - например, фраза «собаки, такие как кошки», состоит из трех токенов слова: «собаки», «как» и «кошки».
- Персонаж, например, фраза «велосипедная рыба» состоит из девяти токенов персонажа. (Обратите внимание, что пустое пространство считается одним из токенов.)
- подвесы, в которых одно слово может быть единственным токеном или множественными токенами. Подвесность состоит из корневого слова, префикса или суффикса. Например, языковая модель, которая использует подвесы в качестве токенов, может рассматривать слово «собаки» как два токена (корневое слово «собака» и суффикс множественного числа «S»). Эта же языковая модель может рассматривать единственное слово «выше» как две подчинки (корневое слово «высокое» и суффикс «ER»).
В областях вне языковых моделей токены могут представлять другие виды атомных единиц. Например, в компьютерном зрении токен может быть подмножеством изображения.
точность Top-K
Процент раз, когда «целевая метка» появляется в первых позициях k сгенерированных списков. Списки могут быть персонализированными рекомендациями или списком предметов, заказанных Softmax .
Точность Top-K также известна как точность в K.
токсичность
Степень, в которой контент является оскорбительным, угрожающим или оскорбительным. Многие модели машинного обучения могут идентифицировать и измерять токсичность. Большинство из этих моделей идентифицируют токсичность по нескольким параметрам, таким как уровень оскорбительного языка и уровень угрожающего языка.
Трансформатор
Архитектура нейронной сети, разработанная в Google, которая опирается на механизмы самоприщепления , чтобы преобразовать последовательность входных встроений в последовательность выходных встроений, не полагаясь на сверка или повторяющиеся нейронные сети . Трансформатор можно рассматривать как стопку у слоев самосознания.
Трансформатор может включать любое из следующего:
Энкодер преобразует последовательность встроенных в новую последовательность одинаковой длины. Энкодер включает в себя n идентичных слоев, каждый из которых содержит два подслои. Эти два подслои применяются в каждом положении последовательности ввода входного ввода, преобразуя каждый элемент последовательности в новое встраивание. Первый подслойный подслойный агрегирует информацию через входную последовательность. Второй подслойный подслойка преобразует агрегированную информацию в выходной встраивание.
Декодер преобразует последовательность входных встроений в последовательность выходных встроений, возможно, с другой длиной. Декодер также включает в себя n идентичных слоев с тремя подслоями, два из которых аналогичны подслоям Encoder. Третий подслой декодера берет вывод энкодера и применяет механизм самосознания для сбора информации из него.
Трансформатор сообщения в блоге: новая архитектура нейронной сети для языкового понимания обеспечивает хорошее введение в трансформаторы.
Триграмм
N-грамм, в котором n = 3.
ты
однонаправленный
Система, которая оценивает только текст, который предшествует целевому разделу текста. Напротив, двунаправленная система оценивает как текст, который предшествует и следует целевому разделу текста. Смотрите двунаправление для более подробной информации.
Модель однонаправленного языка
Языковая модель , которая основывает свои вероятности только на токенах, появляющихся ранее , не после , целевого токена (ы). Контраст с двунаправленной языковой моделью .
В
вариационный автоэкодер (VAE)
Тип автоэкодора , который использует расхождение между входами и выходами для генерации модифицированных версий входов. Вариационные автоэкодоры полезны для генеративного ИИ .
VAE основаны на вариационном выводе: метод оценки параметров модели вероятности.
Вт
Слово внедрение
Представлять каждое слово в слово, установленное в векторе встраивания ; то есть представлять каждое слово как вектор значений с плавающей точкой от 0,0 до 1,0. Слова с похожими значениями имеют более разнообразные представления, чем слова с разными значениями. Например, морковь , сельдерей и огурцы будут иметь относительно похожие представления, которые сильно отличались от представлений самолетов , солнцезащитных очков и зубной пасты .
З
подсказка с нулевым выстрелом
Приглашение , не содержащее примера того, как должна реагировать большая языковая модель . Например:
Части одной подсказки | Примечания |
---|---|
Какая официальная валюта указанной страны? | Вопрос, на который вы хотите получить ответ от LLM. |
Индия: | Фактический запрос. |
Модель большого языка может ответить любым из следующих действий:
- Рупия
- индийская рупия
- ₹
- Индийская рупия
- рупия
- Индийская рупия
Все ответы верны, хотя вы можете предпочесть определенный формат.
Сравните и сопоставьте подсказки «нулевого выстрела» со следующими терминами: