Глоссарий машинного обучения,Глоссарий машинного обучения

Этот глоссарий определяет термины машинного обучения.

А

абляция

Метод оценки важности функции или компонента путем временного удаления его из модели . Затем вы переобучаете модель без этой функции или компонента, и если переобученная модель работает значительно хуже, то удаленная функция или компонент, вероятно, были важны.

Например, предположим, что вы обучаете модель классификации на 10 признаках и достигаете точности 88 % на тестовом наборе . Чтобы проверить важность первой функции, вы можете переобучить модель, используя только девять других функций. Если переобученная модель работает значительно хуже (например, точность 55%), то удаленная функция, вероятно, была важна. И наоборот, если переобученная модель работает одинаково хорошо, то эта функция, вероятно, не так уж важна.

Абляция также может помочь определить важность:

  • Более крупные компоненты, например целая подсистема более крупной системы машинного обучения.
  • Процессы или методы, такие как этап предварительной обработки данных.

В обоих случаях вы увидите, как изменится (или не изменится) производительность системы после удаления компонента.

А/Б тестирование

Статистический способ сравнения двух (или более) методов — А и Б. Обычно A — это существующая технология, а B — новая технология. A/B-тестирование не только определяет, какой метод работает лучше, но также определяет, является ли разница статистически значимой.

A/B-тестирование обычно сравнивает одну метрику двух методов; например, как сравнивается точность модели для двух методов? Однако A/B-тестирование также позволяет сравнивать любое конечное число метрик.

чип-ускоритель

#GoogleCloud

Категория специализированных аппаратных компонентов, предназначенных для выполнения ключевых вычислений, необходимых для алгоритмов глубокого обучения.

Чипы-ускорители (или просто ускорители , для краткости) могут значительно повысить скорость и эффективность задач обучения и вывода по сравнению с ЦП общего назначения. Они идеально подходят для обучения нейронных сетей и аналогичных задач с интенсивными вычислениями.

Примеры чипов-ускорителей включают в себя:

  • Тензорные процессоры Google ( TPU ) со специальным оборудованием для глубокого обучения.
  • Графические процессоры NVIDIA, изначально предназначенные для обработки графики, предназначены для обеспечения параллельной обработки, что может значительно повысить скорость обработки.

точность

#основы

Количество правильных прогнозов классификации, разделенное на общее количество прогнозов. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация дает конкретные названия различным категориям правильных и неправильных прогнозов . Итак, формула точности бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

Сравните и сопоставьте точность с точностью и отзывом .

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.

действие

#рл

В обучении с подкреплением - механизм, с помощью которого агент переходит между состояниями окружающей среды . Агент выбирает действие, используя политику .

функция активации

#основы

Функция, которая позволяет нейронным сетям изучать нелинейные (сложные) связи между объектами и меткой.

Популярные функции активации включают в себя:

Графики функций активации никогда не представляют собой одиночные прямые линии. Например, график функции активации ReLU состоит из двух прямых:

Декартов график из двух линий. В первой строке есть константа           значение y, равное 0, вдоль оси X от -бесконечности,0 до 0,-0.           Вторая строка начинается с 0,0. Эта линия имеет наклон +1, поэтому           он работает от 0,0 до +бесконечности,+бесконечности.

График сигмовидной функции активации выглядит следующим образом:

Двумерный изогнутый график со значениями x, охватывающими область.           от -бесконечности до +положительного, а значения y охватывают диапазон от почти 0 до           почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда           положительный, с наибольшим наклоном 0,0,5 и постепенно уменьшающимся           наклоны по мере увеличения абсолютного значения x.

Дополнительную информацию см. в разделе «Нейронные сети: функции активации в ускоренном курсе машинного обучения».

активное обучение

Подход к обучению , при котором алгоритм выбирает некоторые данные, на которых он учится. Активное обучение особенно ценно, когда помеченные примеры редки или дороги. Вместо слепого поиска разнообразного диапазона помеченных примеров алгоритм активного обучения выборочно ищет конкретный диапазон примеров, необходимый для обучения.

АдаГрад

Сложный алгоритм градиентного спуска, который масштабирует градиенты каждого параметра , эффективно давая каждому параметру независимую скорость обучения . Полное объяснение можно найти в этой статье AdaGrad .

агент

#рл

В обучении с подкреплением - сущность, которая использует политику для максимизации ожидаемой отдачи , полученной от перехода между состояниями среды .

В более общем смысле, агент — это программное обеспечение, которое автономно планирует и выполняет ряд действий для достижения цели, имея возможность адаптироваться к изменениям в окружающей среде. Например, агент на основе LLM может использовать LLM для создания плана вместо применения политики обучения с подкреплением.

агломеративная кластеризация

#кластеризация

См. иерархическую кластеризацию .

обнаружение аномалий

Процесс выявления выбросов . Например, если среднее значение для определенного объекта равно 100 со стандартным отклонением 10, то обнаружение аномалий должно пометить значение 200 как подозрительное.

АР

Аббревиатура дополненной реальности .

площадь под кривой PR

См. PR AUC (площадь под кривой PR) .

площадь под кривой ROC

См. AUC (площадь под кривой ROC) .

общий искусственный интеллект

Нечеловеческий механизм, демонстрирующий широкий спектр решений проблем, креативность и адаптивность. Например, программа, демонстрирующая общий искусственный интеллект, могла бы переводить текст, сочинять симфонии и преуспевать в играх, которые еще не изобретены.

искусственный интеллект

#основы

Нечеловеческая программа или модель , способная решать сложные задачи. Например, программа или модель, которая переводит текст, или программа или модель, которая идентифицирует заболевания по радиологическим изображениям, обладают искусственным интеллектом.

Формально машинное обучение — это подобласть искусственного интеллекта. Однако в последние годы некоторые организации начали использовать термины «искусственный интеллект» и «машинное обучение» как синонимы.

внимание

#язык

Механизм, используемый в нейронной сети , который указывает важность определенного слова или части слова. Внимание сжимает объем информации, необходимой модели для прогнозирования следующего токена/слова. Типичный механизм внимания может состоять из взвешенной суммы по набору входных данных, где вес каждого входного сигнала вычисляется другой частью нейронной сети.

Обратитесь также к самовниманию и многоголовому самовниманию , которые являются строительными блоками Трансформеров .

См . LLM: Что такое большая языковая модель? в ускоренном курсе машинного обучения для получения дополнительной информации о самообслуживании.

атрибут

#справедливость

Синоним функции .

В рамках справедливости машинного обучения атрибуты часто относятся к характеристикам, относящимся к отдельным людям.

выборка атрибутов

#df

Тактика обучения леса решений , в которой каждое дерево решений учитывает только случайное подмножество возможных признаков при изучении условия . Обычно для каждого узла отбирается различное подмножество функций. Напротив, при обучении дерева решений без выборки атрибутов для каждого узла рассматриваются все возможные функции.

AUC (Площадь под кривой ROC)

#основы

Число от 0,0 до 1,0, обозначающее способность модели бинарной классификации отделять положительные классы от отрицательных классов . Чем ближе AUC к 1,0, тем лучше способность модели отделять классы друг от друга.

Например, на следующем рисунке показана модель классификатора, которая идеально отделяет положительные классы (зеленые овалы) от отрицательных классов (фиолетовые прямоугольники). Эта нереально идеальная модель имеет AUC 1,0:

Числовая линия с 8 положительными примерами на одной стороне и           9 негативных примеров с другой стороны.

И наоборот, на следующем рисунке показаны результаты для модели классификатора, которая генерировала случайные результаты. Эта модель имеет AUC 0,5:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров положительная, отрицательная,           положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный           отрицательный, положительный, отрицательный.

Да, предыдущая модель имеет AUC 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель несколько отделяет положительные значения от отрицательных и поэтому имеет AUC где-то между 0,5 и 1,0:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров отрицательная, отрицательная, отрицательная, отрицательная,           положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный,           положительный.

AUC игнорирует любые значения, установленные вами для порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

дополненная реальность

#изображение

Технология, которая накладывает изображение, созданное компьютером, на представление пользователя о реальном мире, создавая таким образом составное представление.

автоэнкодер

#язык
#изображение

Система, которая учится извлекать наиболее важную информацию из входных данных. Автоэнкодеры представляют собой комбинацию кодера и декодера . Автоэнкодеры полагаются на следующий двухэтапный процесс:

  1. Кодер преобразует входные данные в (обычно) низкоразмерный (промежуточный) формат с потерями.
  2. Декодер создает версию исходного ввода с потерями, сопоставляя формат меньшей размерности с исходным входным форматом более высокой размерности.

Автокодировщики обучаются сквозно, заставляя декодер пытаться как можно точнее восстановить исходный входной сигнал из промежуточного формата кодера. Поскольку промежуточный формат меньше (меньшая размерность), чем исходный формат, автокодировщику приходится узнавать, какая информация на входе важна, и выходные данные не будут полностью идентичны входным.

Например:

  • Если входные данные представляют собой графику, неточная копия будет похожа на исходную графику, но несколько изменена. Возможно, неточная копия удаляет шум из исходной графики или заполняет некоторые недостающие пиксели.
  • Если входные данные представляют собой текст, автокодировщик сгенерирует новый текст, который имитирует (но не идентичен) исходному тексту.

См. также вариационные автоэнкодеры .

автоматическая оценка

#язык
#генеративныйИИ

Использование программного обеспечения для оценки качества вывода модели.

Если выходные данные модели относительно просты, сценарий или программа могут сравнить выходные данные модели с золотым ответом . Этот тип автоматической оценки иногда называют программной оценкой . Такие показатели, как ROUGE или BLEU, часто полезны для программной оценки.

Если выходные данные модели сложны или не имеют единственного правильного ответа , отдельная программа машинного обучения, называемая авторейтером, иногда выполняет автоматическую оценку.

Контраст с человеческой оценкой .

предвзятость автоматизации

#справедливость

Когда человек, принимающий решения, предпочитает рекомендации автоматизированной системы принятия решений информации, полученной без автоматизации, даже если автоматизированная система принятия решений допускает ошибки.

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

АвтоМЛ

Любой автоматизированный процесс построения моделей машинного обучения . AutoML может автоматически выполнять такие задачи, как следующие:

AutoML полезен для специалистов по данным, поскольку может сэкономить им время и усилия при разработке конвейеров машинного обучения и повысить точность прогнозирования. Это также полезно для неспециалистов, поскольку делает сложные задачи машинного обучения более доступными для них.

Дополнительную информацию см. в разделе «Автоматическое машинное обучение (AutoML)» ускоренного курса машинного обучения.

авторейтерская оценка

#язык
#генеративныйИИ
Гибридный механизм оценки качества результатов генеративной модели ИИ , сочетающий человеческую оценку с автоматической оценкой . Авторрейтер — это модель машинного обучения, обученная на данных, полученных в результате оценки человеком . В идеале авторрейтер учится подражать оценщику-человеку.

Доступны готовые авторейтинги, но лучшие авторейтинги точно настроены специально для задачи, которую вы оцениваете.

авторегрессионная модель

#язык
#изображение
#генеративныйИИ

Модель , которая делает прогноз на основе собственных предыдущих прогнозов. Например, авторегрессионные языковые модели прогнозируют следующий токен на основе ранее предсказанных токенов. Все модели большого языка на основе Transformer являются авторегрессионными.

Напротив, модели изображений на основе GAN обычно не являются авторегрессионными, поскольку они генерируют изображение за один проход вперед, а не поэтапно итеративно. Однако некоторые модели генерации изображений являются авторегрессионными, поскольку они генерируют изображение поэтапно.

вспомогательная потеря

Функция потерь , используемая вместе с основной функцией потерь модели нейронной сети , которая помогает ускорить обучение на ранних итерациях, когда веса инициализируются случайным образом.

Вспомогательные функции потерь перемещают эффективные градиенты на более ранние слои . Это облегчает сходимость во время обучения , решая проблему исчезновения градиента .

средняя точность при k

#язык

Метрика для подведения итогов эффективности модели в одном запросе, который генерирует ранжированные результаты, например нумерованный список рекомендаций по книгам. Средняя точность при k — это среднее значение точности при значениях k для каждого соответствующего результата. Таким образом, формула средней точности при k выглядит следующим образом:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

где:

  • \(n\) — количество соответствующих элементов в списке.

Сравните с отзывом в k .

условие совмещения осей

#df

В дереве решений - условие , включающее только один признак . Например, если area является объектом, то условием выравнивания по оси является следующее:

area > 200

Сравните с наклонным состоянием .

Б

обратное распространение ошибки

#основы

Алгоритм, реализующий градиентный спуск в нейронных сетях .

Обучение нейронной сети включает в себя множество итераций следующего двухпроходного цикла:

  1. Во время прямого прохода система обрабатывает пакет примеров для получения прогнозов. Система сравнивает каждый прогноз с каждым значением метки . Разница между прогнозом и значением метки — это потеря для этого примера. Система суммирует потери для всех примеров, чтобы вычислить общие потери для текущей партии.
  2. Во время обратного прохода (обратного распространения ошибки) система уменьшает потери, корректируя веса всех нейронов во всех скрытых слоях .

Нейронные сети часто содержат множество нейронов во многих скрытых слоях. Каждый из этих нейронов по-разному вносит свой вклад в общую потерю. Обратное распространение ошибки определяет, следует ли увеличивать или уменьшать веса, применяемые к конкретным нейронам.

Скорость обучения — это множитель, который контролирует степень увеличения или уменьшения каждого веса при каждом обратном проходе. Большая скорость обучения будет увеличивать или уменьшать каждый вес больше, чем низкая скорость обучения.

С точки зрения исчисления, обратное распространение ошибки реализует правило цепочки . из исчисления. То есть обратное распространение ошибки вычисляет частную производную ошибки по каждому параметру.

Несколько лет назад специалистам по машинному обучению приходилось писать код для реализации обратного распространения ошибки. Современные API машинного обучения, такие как Keras, теперь реализуют обратное распространение ошибки. Уф!

Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».

упаковка в мешки

#df

Метод обучения ансамбля , при котором каждая составляющая модель обучается на случайном подмножестве обучающих примеров, выбранных с заменой . Например, случайный лес — это набор деревьев решений, обученных с помощью мешков.

Термин «бэггинг» является сокращением от бутстрап - агрегирования .

Дополнительную информацию см. в разделе «Случайные леса » курса «Леса решений».

мешок слов

#язык

Представление слов во фразе или отрывке независимо от порядка. Например, мешок слов одинаково представляет следующие три фразы:

  • собака прыгает
  • прыгает на собаку
  • собака прыгает

Каждое слово сопоставляется с индексом в разреженном векторе , где вектор имеет индекс для каждого слова в словаре. Например, фраза «собака прыгает» отображается в вектор признаков с ненулевыми значениями по трем индексам, соответствующим словам « собака» и «прыжки» . Ненулевое значение может быть любым из следующих:

  • 1 указывает на наличие слова.
  • Подсчет количества раз, когда слово появляется в сумке. Например, если фраза «бордовая собака» — это собака с бордовой шерстью , то и «бордовый» , и «собака» будут представлены как 2, а другие слова будут представлены как 1.
  • Некоторое другое значение, например логарифм количества раз, которое слово появляется в сумке.

базовый уровень

Модель, используемая в качестве ориентира для сравнения эффективности другой модели (обычно более сложной). Например, модель логистической регрессии может служить хорошей основой для глубокой модели .

Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно определить минимальную ожидаемую производительность, которую должна достичь новая модель, чтобы новая модель была полезной.

партия

#основы

Набор примеров, используемых в одной обучающей итерации . Размер партии определяет количество примеров в партии.

См. «Эпоха» для объяснения того, как партия связана с эпохой.

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

пакетный вывод

#TensorFlow
#GoogleCloud

Процесс вывода прогнозов на нескольких немаркированных примерах, разделенных на более мелкие подмножества («партии»).

Пакетный вывод может использовать возможности распараллеливания микросхем-ускорителей . То есть несколько ускорителей могут одновременно делать прогнозы на разных пакетах немаркированных примеров, что значительно увеличивает количество выводов в секунду.

Дополнительные сведения см. в разделе «Производственные системы ML: статический и динамический вывод» в ускоренном курсе машинного обучения.

пакетная нормализация

Нормализация ввода или вывода функций активации в скрытом слое . Пакетная нормализация может дать следующие преимущества:

размер партии

#основы

Количество примеров в пакете . Например, если размер пакета равен 100, модель обрабатывает 100 примеров за итерацию .

Ниже приведены популярные стратегии размера партии:

  • Стохастический градиентный спуск (SGD) , в котором размер пакета равен 1.
  • Полный пакет, в котором размер пакета — это количество примеров во всем обучающем наборе . Например, если обучающий набор содержит миллион примеров, то размер пакета будет составлять миллион примеров. Полная партия обычно является неэффективной стратегией.
  • Мини-пакет , размер которого обычно составляет от 10 до 1000. Мини-пакет обычно является наиболее эффективной стратегией.

Для получения дополнительной информации см. следующее:

Байесовская нейронная сеть

Вероятностная нейронная сеть , которая учитывает неопределенность в весах и выходных данных. Стандартная модель регрессии нейронной сети обычно предсказывает скалярное значение; например, стандартная модель прогнозирует цену дома в 853 000 долларов. Напротив, байесовская нейронная сеть предсказывает распределение значений; например, байесовская модель предсказывает цену дома в размере 853 000 со стандартным отклонением 67 200.

Байесовская нейронная сеть опирается на теорему Байеса для расчета неопределенностей в весах и прогнозах. Байесовская нейронная сеть может быть полезна, когда важно количественно оценить неопределенность, например, в моделях, связанных с фармацевтическими препаратами. Байесовские нейронные сети также могут помочь предотвратить переобучение .

Байесовская оптимизация

Метод вероятностной регрессионной модели для оптимизации дорогостоящих в вычислительном отношении целевых функций путем оптимизации суррогатной функции, которая количественно определяет неопределенность с использованием метода байесовского обучения. Поскольку байесовская оптимизация сама по себе очень дорога, ее обычно используют для оптимизации дорогостоящих в оценке задач с небольшим количеством параметров, таких как выбор гиперпараметров .

уравнение Беллмана

#рл

При обучении с подкреплением оптимальная Q-функция удовлетворяет следующему тождеству:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Алгоритмы обучения с подкреплением применяют эту идентичность для создания Q-обучения с помощью следующего правила обновления:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Помимо обучения с подкреплением, уравнение Беллмана находит применение в динамическом программировании. См . статью в Википедии об уравнении Беллмана .

BERT (представления двунаправленного кодировщика от трансформаторов)

#язык

Архитектура модели для представления текста. Обученная модель BERT может действовать как часть более крупной модели для классификации текста или других задач машинного обучения.

BERT имеет следующие характеристики:

Варианты BERT включают:

Обзор BERT см. в разделе «Открытый исходный код BERT: современное предварительное обучение обработке естественного языка» .

предвзятость (этика/справедливость)

#справедливость
#основы

1. Стереотипы, предрассудки или фаворитизм в отношении одних вещей, людей или групп по сравнению с другими. Эти предубеждения могут повлиять на сбор и интерпретацию данных, дизайн системы и то, как пользователи взаимодействуют с системой. К формам этого типа предвзятости относятся:

2. Систематическая ошибка, вызванная процедурой выборки или отчетности. К формам этого типа предвзятости относятся:

Не путать с термином «предвзятость» в моделях машинного обучения или «предвзятость прогнозирования» .

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

предвзятость (математика) или термин предвзятости

#основы

Перехват или смещение от начала координат. Смещение — это параметр в моделях машинного обучения, который обозначается одним из следующих символов:

  • б
  • ш 0

Например, смещение — это буква b в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

В простой двумерной линии смещение означает просто «пересечение оси Y». Например, смещение линии на следующем рисунке равно 2.

График линии с наклоном 0,5 и смещением (пересечение оси Y) 2.

Смещение существует, потому что не все модели начинаются с начала координат (0,0). Например, предположим, что вход в парк развлечений стоит 2 евро и дополнительно 0,5 евро за каждый час пребывания клиента. Следовательно, модель, отображающая общую стоимость, имеет смещение 2, поскольку минимальная стоимость составляет 2 евро.

Предвзятость не следует путать с предвзятостью в вопросах этики и справедливости или предвзятостью прогнозирования .

Дополнительную информацию см. в разделе «Линейная регрессия в ускоренном курсе машинного обучения».

двунаправленный

#язык

Термин, используемый для описания системы, которая оценивает текст, который предшествует и следует за целевым разделом текста. Напротив, однонаправленная система оценивает только текст, который предшествует целевому разделу текста.

Например, рассмотрим модель языка в масках , которая должна определять вероятности для слова или слов, представляющих подчеркивание в следующем вопросе:

Что с тобой _____?

Однонаправленная языковая модель должна была бы основывать свои вероятности только на контексте, обеспечиваемом словами «Что», «есть» и «the». Напротив, двунаправленная языковая модель также может получить контекст от слов «с» и «вы», что может помочь модели генерировать более качественные прогнозы.

двунаправленная языковая модель

#язык

Языковая модель , определяющая вероятность присутствия данного токена в заданном месте во фрагменте текста на основе предыдущего и последующего текста.

биграмма

#seq
#язык

N-грамма, в которой N=2.

бинарная классификация

#основы

Тип задачи классификации , которая прогнозирует один из двух взаимоисключающих классов:

Например, каждая из следующих двух моделей машинного обучения выполняет двоичную классификацию:

  • Модель, определяющая, являются ли сообщения электронной почты спамом (положительный класс) или нет (негативный класс).
  • Модель, которая оценивает медицинские симптомы, чтобы определить, есть ли у человека определенное заболевание (положительный класс) или нет этого заболевания (негативный класс).

Сравните с многоклассовой классификацией .

См. также логистическую регрессию и порог классификации .

Дополнительную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

двоичное состояние

#df

В дереве решенийусловие , имеющее только два возможных результата, обычно «да» или «нет» . Например, следующее двоичное условие:

temperature >= 100

Сравните с небинарным состоянием .

Дополнительные сведения см. в разделе «Типы условий» курса «Леса решений».

группирование

Синоним квитирования .

BLEU (дублёр двуязычной оценки)

#язык

Метрика от 0,0 до 1,0 для оценки машинного перевода , например, с испанского на японский.

Для расчета оценки BLEU обычно сравнивает перевод модели ML ( сгенерированный текст ) с переводом эксперта ( справочный текст ). Степень соответствия N-грамм в сгенерированном тексте и тексте ссылки определяет оценку BLEU.

Оригинальная статья по этой метрике — BLEU: метод автоматической оценки машинного перевода .

См. также БЛЕРТ .

БЛЕУРТ (дублёр двуязычной оценки из «Трансформеров»)

#язык

Метрика для оценки машинного перевода с одного языка на другой, особенно на английский и с английского.

Для переводов на английский и с английского язык BLEURT более точно соответствует человеческим рейтингам, чем BLEU . В отличие от BLEU, BLEURT подчеркивает семантическое (значительное) сходство и допускает перефразирование.

BLEURT опирается на предварительно обученную модель большого языка (точнее, BERT ), которая затем настраивается на текст, полученный от переводчиков-людей.

Оригинальная статья по этой метрике — BLEURT: Learning Robust Metrics for Text Generation .

повышение

Метод машинного обучения, который итеративно объединяет набор простых и не очень точных классификаторов (называемых «слабыми» классификаторами) в классификатор с высокой точностью («сильный» классификатор) путем увеличения веса примеров, которые модель в данный момент неправильно классифицирует.

Видите деревья решений с градиентным усилением? в курсе «Леса решений» для получения дополнительной информации.

ограничивающая рамка

#изображение

На изображении координаты ( x , y ) прямоугольника вокруг интересующей области, например собаки на изображении ниже.

Фотография собаки, сидящей на диване. Зеленая ограничивающая рамка           с координатами вверху слева (275, 1271) и внизу справа           координаты (2954, 2761) описывают тело собаки

вещание

Расширение формы операнда в матричной математической операции до размеров , совместимых для этой операции. Например, линейная алгебра требует, чтобы два операнда в операции сложения матриц имели одинаковые размерности. Следовательно, вы не можете добавить матрицу формы (m, n) к вектору длины n. Широковещательная рассылка позволяет выполнить эту операцию, виртуально расширяя вектор длины n до матрицы формы (m, n), реплицируя одни и те же значения в каждом столбце.

Например, учитывая следующие определения, линейная алгебра запрещает A+B, поскольку A и B имеют разные размерности:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Однако широковещание позволяет осуществлять операцию A+B, виртуально расширяя B до:

 [[2, 2, 2],
  [2, 2, 2]]

Таким образом, A+B теперь является допустимой операцией:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Более подробную информацию смотрите в следующем описании трансляции в NumPy .

группирование

#основы

Преобразование одного объекта в несколько двоичных объектов, называемых сегментами или контейнерами , обычно на основе диапазона значений. Вырезанный объект обычно является непрерывным объектом .

Например, вместо того, чтобы представлять температуру как один непрерывный признак с плавающей запятой, вы можете разбить диапазоны температур на отдельные сегменты, например:

  • <= 10 градусов по Цельсию будет «холодным» ведром.
  • 11–24 градуса по Цельсию будет «умеренным» ведром.
  • >= 25 градусов по Цельсию будет «теплым» ведром.

Модель будет обрабатывать каждое значение в одном и том же сегменте одинаково. Например, значения 13 и 22 относятся к сегменту умеренного климата, поэтому модель обрабатывает эти два значения одинаково.

Дополнительные сведения см. в разделе «Численные данные: группирование в ускоренном курсе машинного обучения».

С

калибровочный слой

Корректировка после прогнозирования, обычно для учета систематической ошибки прогноза . Скорректированные прогнозы и вероятности должны соответствовать распределению наблюдаемого набора меток.

поколение кандидатов

#recsystems

Начальный набор рекомендаций, выбранный рекомендательной системой . Например, рассмотрим книжный магазин, предлагающий 100 000 наименований. На этапе генерации кандидатов создается гораздо меньший список подходящих книг для конкретного пользователя, скажем, 500. Но даже 500 книг — это слишком много, чтобы рекомендовать пользователю. Последующие, более дорогостоящие этапы системы рекомендаций (такие как выставление оценок и изменение рейтинга ) сводят эти 500 к гораздо меньшему и более полезному набору рекомендаций.

Дополнительную информацию см. в разделе «Обзор генерации кандидатов» в курсе «Системы рекомендаций».

выборка кандидатов

Оптимизация времени обучения, которая вычисляет вероятность для всех положительных меток, используя, например, softmax , но только для случайной выборки отрицательных меток. Например, для примера, помеченного как «бигль» и «собака» , выборка кандидатов вычисляет прогнозируемые вероятности и соответствующие условия потерь для:

  • бигль
  • собака
  • случайное подмножество оставшихся отрицательных классов (например, кот , леденец , забор ).

Идея состоит в том, что негативные классы могут учиться на менее частом негативном подкреплении, пока позитивные классы всегда получают правильное положительное подкрепление, и это действительно наблюдается эмпирически.

Кандидатская выборка более эффективна в вычислительном отношении, чем алгоритмы обучения, которые вычисляют прогнозы для всех отрицательных классов, особенно когда количество отрицательных классов очень велико.

категориальные данные

#основы

Функции, имеющие определенный набор возможных значений. Например, рассмотрим категориальную функцию под названием traffic-light-state , которая может иметь только одно из следующих трех возможных значений:

  • red
  • yellow
  • green

Представляя traffic-light-state как категориальную характеристику, модель может изучить различное влияние red , green и yellow на поведение водителя.

Категориальные признаки иногда называют дискретными признаками .

Сравните с числовыми данными .

Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе машинного обучения.

причинно-языковая модель

#язык

Синоним однонаправленной языковой модели .

См. двунаправленную языковую модель , чтобы сравнить различные направленные подходы к языковому моделированию.

центроид

#кластеризация

Центр кластера, определенный алгоритмом k-средних или k-медианы . Например, если k равно 3, то алгоритм k-средних или k-медианы находит 3 центроида.

Дополнительную информацию см. в разделе «Алгоритмы кластеризации» в курсе «Кластеризация».

кластеризация на основе центроидов

#кластеризация

Категория алгоритмов кластеризации , которая организует данные в неиерархические кластеры. k-means — наиболее широко используемый алгоритм кластеризации на основе центроидов.

В отличие от алгоритмов иерархической кластеризации .

Дополнительную информацию см. в разделе «Алгоритмы кластеризации» в курсе «Кластеризация».

подсказка по цепочке мыслей

#язык
#генеративныйИИ

Метод быстрого проектирования , который побуждает большую языковую модель (LLM) шаг за шагом объяснять свои рассуждения. Например, рассмотрите следующую подсказку, уделив особое внимание второму предложению:

Какую силу перегрузки испытает водитель автомобиля, разгоняющегося от 0 до 60 миль в час за 7 секунд? В ответе покажите все соответствующие расчеты.

Ответ LLM, скорее всего, будет следующим:

  • Покажите последовательность физических формул, вставив в соответствующие места значения 0, 60 и 7.
  • Объясните, почему он выбрал именно эти формулы и что означают различные переменные.

Подсказки по цепочке мыслей заставляют LLM выполнять все вычисления, которые могут привести к более правильному ответу. Кроме того, подсказки по цепочке мыслей позволяют пользователю изучить шаги LLM, чтобы определить, имеет ли ответ смысл.

чат

#язык
#генеративныйИИ

Содержимое двустороннего диалога с системой машинного обучения, обычно это большая языковая модель . Предыдущее взаимодействие в чате (то, что вы набрали и как ответила большая языковая модель) становится контекстом для последующих частей чата.

Чат-бот — это приложение большой языковой модели.

контрольно-пропускной пункт

Данные, которые фиксируют состояние параметров модели во время обучения или после его завершения. Например, во время обучения вы можете:

  1. Прекратите обучение, возможно, намеренно, а возможно, в результате определенных ошибок.
  2. Захват контрольно-пропускного пункта.
  3. Позже перезагрузите КПП, возможно на другом оборудовании.
  4. Возобновить обучение.

сорт

#основы

Категория, к которой может принадлежать метка . Например:

Модель классификации предсказывает класс. Напротив, регрессионная модель предсказывает число, а не класс.

Дополнительную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

модель классификации

#основы

Модель , предсказание которой является классом . Например, ниже приведены все модели классификации:

  • Модель, которая предсказывает язык входного предложения (французский? испанский? итальянский?).
  • Модель, предсказывающая породы деревьев (клен? дуб? баобаб?).
  • Модель, которая прогнозирует положительный или отрицательный класс конкретного заболевания.

Напротив, регрессионные модели предсказывают числа, а не классы.

Два распространенных типа классификационных моделей:

порог классификации

#основы

В двоичной классификации - число от 0 до 1, которое преобразует необработанные выходные данные модели логистической регрессии в прогноз либо положительного , либо отрицательного класса . Обратите внимание, что порог классификации — это значение, которое выбирает человек, а не значение, выбранное при обучении модели.

Модель логистической регрессии выводит необработанное значение от 0 до 1. Затем:

  • Если это необработанное значение превышает порог классификации, то прогнозируется положительный класс.
  • Если это необработанное значение меньше порога классификации, то прогнозируется отрицательный класс.

Например, предположим, что порог классификации равен 0,8. Если исходное значение равно 0,9, модель прогнозирует положительный класс. Если исходное значение равно 0,7, то модель прогнозирует отрицательный класс.

Выбор порога классификации сильно влияет на количество ложноположительных и ложноотрицательных результатов .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

несбалансированный по классам набор данных

#основы

Набор данных для задачи классификации, в которой общее количество меток каждого класса значительно различается. Например, рассмотрим набор данных двоичной классификации, две метки которого разделены следующим образом:

  • 1 000 000 негативных ярлыков
  • 10 положительных ярлыков

Соотношение отрицательных и положительных меток составляет 100 000 к 1, поэтому это набор данных с несбалансированным классом.

Напротив, следующий набор данных не является несбалансированным по классам, поскольку соотношение отрицательных меток к положительным меткам относительно близко к 1:

  • 517 отрицательных ярлыков
  • 483 положительных метки

Многоклассовые наборы данных также могут быть несбалансированными по классам. Например, следующий набор данных многоклассовой классификации также несбалансирован по классам, поскольку одна метка содержит гораздо больше примеров, чем две другие:

  • 1 000 000 этикеток класса «зеленый»
  • 200 этикеток класса «фиолетовый».
  • 350 этикеток класса «оранжевый».

См. также энтропию , класс большинства и класс меньшинства .

вырезка

#основы

Техника обработки выбросов путем выполнения одного или обоих следующих действий:

  • Уменьшение значений функций , превышающих максимальный порог, до этого максимального порога.
  • Увеличение значений функций, которые меньше минимального порога, до этого минимального порога.

Например, предположим, что <0,5% значений определенного признака выходят за пределы диапазона 40–60. В этом случае вы можете сделать следующее:

  • Обрежьте все значения выше 60 (максимальный порог), чтобы они составляли ровно 60.
  • Обрежьте все значения ниже 40 (минимальный порог), чтобы они составляли ровно 40.

Выбросы могут повредить модели, иногда вызывая переполнение весов во время обучения. Некоторые выбросы также могут существенно испортить такие показатели, как точность . Обрезка — распространенный метод ограничения ущерба.

Отсечение градиента приводит к тому, что значения градиента находятся в пределах заданного диапазона во время обучения.

Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».

Облачный ТПУ

#TensorFlow
#GoogleCloud

Специализированный аппаратный ускоритель, предназначенный для ускорения рабочих нагрузок машинного обучения в Google Cloud.

кластеризация

#кластеризация

Группировка связанных примеров , особенно во время обучения без учителя . После того как все примеры сгруппированы, человек может при желании придать смысл каждому кластеру.

Существует множество алгоритмов кластеризации. Например, алгоритм k-средних кластеризует примеры на основе их близости к центроиду , как показано на следующей диаграмме:

Двумерный график, на оси X отмечена ширина дерева.           а ось Y обозначает высоту дерева. График содержит два           центроиды и несколько десятков точек данных. Точки данных           классифицируются в зависимости от их близости. То есть точки данных           ближайшие к одному центроиду относятся к кластеру 1, а те, которые находятся ближе всего к одному центроиду, относятся к кластеру 1, а те, которые           ближайшие к другому центроиду классифицируются как кластер 2.

Затем исследователь-человек может просмотреть кластеры и, например, обозначить кластер 1 как «карликовые деревья», а кластер 2 — как «полноразмерные деревья».

В качестве другого примера рассмотрим алгоритм кластеризации, основанный на расстоянии примера от центральной точки, проиллюстрированный следующим образом:

Десятки точек данных расположены концентрическими кругами, почти           как дырки вокруг центра дартса. Самое внутреннее кольцо           точек данных относится к кластеру 1, среднему кольцу           классифицируется как кластер 2, а самое внешнее кольцо — как           кластер 3.

Дополнительную информацию смотрите в курсе «Кластеризация» .

совместная адаптация

Когда нейроны предсказывают закономерности в обучающих данных, полагаясь почти исключительно на выходные данные конкретных других нейронов, а не на поведение сети в целом. Когда шаблоны, вызывающие совместную адаптацию, отсутствуют в данных проверки, совместная адаптация вызывает переобучение. Регуляризация выпадения снижает коадаптацию, поскольку выпадение гарантирует, что нейроны не могут полагаться исключительно на другие конкретные нейроны.

совместная фильтрация

#recsystems

Прогнозирование интересов одного пользователя на основе интересов множества других пользователей. Совместная фильтрация часто используется в рекомендательных системах .

Дополнительную информацию см. в разделе «Совместная фильтрация» курса «Системы рекомендаций».

дрейф концепции

Изменение отношений между функциями и этикеткой. Со временем дрейф концепции снижает качество модели.

Во время обучения модель изучает взаимосвязь между функциями и их метками в обучающем наборе. Если метки в обучающем наборе являются хорошими представителями реального мира, то модель должна делать хорошие прогнозы реального мира. Однако из-за дрейфа концепций прогнозы модели имеют тенденцию со временем ухудшаться.

Например, рассмотрим модель бинарной классификации , которая предсказывает, является ли определенная модель автомобиля «экономичной по расходу топлива». То есть функциями могут быть:

  • вес автомобиля
  • компрессия двигателя
  • тип передачи

в то время как метка либо:

  • экономичный
  • не экономичный

Однако понятие «топливосберегающий автомобиль» продолжает меняться. Модель автомобиля, отмеченная как экономичная в 1994 году, почти наверняка будет отмечена как неэффективная в 2024 году. Модель, страдающая от концептуального дрейфа, имеет тенденцию со временем давать все менее и менее полезные прогнозы.

Сравните и противопоставьте нестационарности .

состояние

#df

В дереве решений — любой узел , вычисляющий выражение. Например, следующая часть дерева решений содержит два условия:

Дерево решений, состоящее из двух условий: (x > 0) и           (у > 0).

Условие также называется разделением или проверкой.

Контрастное состояние с листом .

См. также:

Дополнительные сведения см. в разделе «Типы условий» курса «Леса решений».

болтовня

#язык

Синоним галлюцинации .

Конфабуляция, вероятно, более технически точный термин, чем галлюцинация. Однако первой популярностью стали пользоваться галлюцинации.

конфигурация

Процесс присвоения начальных значений свойств, используемых для обучения модели, включая:

В проектах машинного обучения настройку можно выполнить с помощью специального файла конфигурации или с помощью библиотек конфигурации, таких как следующие:

предвзятость подтверждения

#справедливость

Тенденция искать, интерпретировать, отдавать предпочтение и вспоминать информацию таким образом, чтобы подтвердить ранее существовавшие убеждения или гипотезы. Разработчики машинного обучения могут непреднамеренно собирать или маркировать данные таким образом, что это повлияет на результат, подтверждающий их существующие убеждения. Предвзятость подтверждения — это форма неявной предвзятости .

Предвзятость экспериментатора — это форма предвзятости подтверждения, при которой экспериментатор продолжает обучение моделей до тех пор, пока не подтвердится ранее существовавшая гипотеза.

матрица путаницы

#основы

Таблица NxN, в которой суммируется количество правильных и неправильных прогнозов, сделанных моделью классификации . Например, рассмотрим следующую матрицу путаницы для модели двоичной классификации :

Опухоль (прогнозируемая) Неопухолевый (прогнозируемый)
Опухоль (основная правда) 18 (ТП) 1 (ФН)
Не опухоль (основная правда) 6 (ФП) 452 (Теннесси)

Предыдущая матрица путаницы показывает следующее:

  • Из 19 прогнозов, в которых основной истиной была опухоль, модель правильно классифицировала 18 и неправильно классифицировала 1.
  • Из 458 прогнозов, в которых основной истиной было отсутствие опухоли, модель правильно классифицировала 452 и неправильно классифицировала 6.

Матрица путаницы для задачи классификации нескольких классов может помочь вам выявить закономерности ошибок. Например, рассмотрим следующую матрицу путаницы для трехклассовой многоклассовой модели классификации, которая классифицирует три разных типа радужной оболочки (Virginica, Versicolor и Setosa). Когда основной истиной была Вирджиния, матрица путаницы показывает, что модель с гораздо большей вероятностью ошибочно предсказывала Версиколор, чем Сетозу:

Сетоза (прогноз) Разноцветный (предсказано) Вирджиния (прогнозируется)
Сетоза (основная правда) 88 12 0
Версиколор (основная правда) 6 141 7
Вирджиния (основная правда) 2 27 109

Еще один пример: матрица путаницы может показать, что модель, обученная распознавать рукописные цифры, имеет тенденцию ошибочно предсказывать 9 вместо 4 или ошибочно предсказывать 1 вместо 7.

Матрицы ошибок содержат достаточно информации для расчета различных показателей производительности, включая точность и полноту .

анализ избирательного округа

#язык

Деление предложения на более мелкие грамматические конструкции («составные»). Более поздняя часть системы машинного обучения, такая как модель понимания естественного языка , может анализировать составляющие легче, чем исходное предложение. Например, рассмотрим следующее предложение:

Мой друг взял двух кошек.

Анализатор избирательного округа может разделить это предложение на следующие две составляющие:

  • Мой друг — существительное.
  • усыновил двух кошек — это глагольная фраза.

Эти составляющие можно разделить на более мелкие составляющие. Например, глагольная группа

взял двух кошек

можно дополнительно разделить на:

  • принято – это глагол.
  • две кошки — еще одна существительная группа.

контекстуализированное языковое встраивание

#язык
#генеративныйИИ

Встраивание , близкое к «пониманию» слов и фраз так, как это могут делать носители языка. Контекстуализированные языковые внедрения могут понимать сложный синтаксис, семантику и контекст.

Например, рассмотрим встраивание английского слова «cow» . Старые внедрения, такие как word2vec, могут представлять английские слова таким образом, что расстояние в пространстве встраивания от коровы до быка аналогично расстоянию от овцы (овцы-самки) до барана (овцы-самцы) или от самки до самца . Контекстуализированные языковые встраивания могут пойти еще дальше, признав, что носители английского языка иногда случайно используют слово « корова» для обозначения либо коровы, либо быка.

контекстное окно

#язык
#генеративныйИИ

Количество токенов, которые модель может обработать в заданном приглашении . Чем больше контекстное окно, тем больше информации модель может использовать для предоставления последовательных и последовательных ответов на запрос.

непрерывный объект

#основы

Функция с плавающей запятой с бесконечным диапазоном возможных значений, таких как температура или вес.

Контраст с дискретной функцией .

удобство отбора проб

Использование набора данных, не собранного с научной точки зрения, для проведения быстрых экспериментов. Позже необходимо переключиться на научно собранный набор данных.

конвергенция

#основы

Состояние, при котором значения потерь изменяются очень незначительно или вообще не меняются на каждой итерации . Например, следующая кривая потерь предполагает сходимость примерно через 700 итераций:

Картезианский сюжет. Ось X — потери. Ось Y — количество тренировок           итерации. Потери очень велики в течение первых нескольких итераций, но           резко падает. Примерно после 100 итераций потери все еще           нисходящее, но гораздо более постепенное. Примерно после 700 итераций           потери остаются неизменными.

Модель сходится , когда дополнительное обучение не улучшает ее.

При глубоком обучении значения потерь иногда остаются постоянными или почти постоянными в течение многих итераций, прежде чем, наконец, упасть. В течение длительного периода постоянных значений потерь у вас может временно возникнуть ложное ощущение конвергенции.

См. также раннюю остановку .

Дополнительные сведения см. в разделе Кривые сходимости и потерь модели в ускоренном курсе машинного обучения.

выпуклая функция

Функция, у которой область над графиком функции представляет собой выпуклое множество . Прототип выпуклой функции имеет форму буквы U. Например, все следующие выпуклые функции:

U-образные кривые, каждая с одной точкой минимума.

Напротив, следующая функция не является выпуклой. Обратите внимание, что область над графиком не является выпуклым множеством:

W-образная кривая с двумя разными точками локального минимума.

Строго выпуклая функция имеет ровно одну точку локального минимума, которая также является точкой глобального минимума. Классические U-образные функции являются строго выпуклыми функциями. Однако некоторые выпуклые функции (например, прямые) не имеют U-образной формы.

Дополнительную информацию см. в разделе «Сходимость и выпуклые функции» в ускоренном курсе машинного обучения.

выпуклая оптимизация

Процесс использования математических методов, таких как градиентный спуск, для нахождения минимума выпуклой функции . Многие исследования в области машинного обучения были сосредоточены на формулировании различных задач в виде задач выпуклой оптимизации и более эффективном решении этих проблем.

Для получения полной информации см. Boyd and Vandenberghe, Convex Optimization .

выпуклое множество

Подмножество евклидова пространства, в котором линия, проведенная между любыми двумя точками этого подмножества, полностью остается внутри этого подмножества. Например, следующие две фигуры являются выпуклыми множествами:

Одна иллюстрация прямоугольника. Еще одна иллюстрация овала.

Напротив, следующие две фигуры не являются выпуклыми множествами:

Одна иллюстрация круговой диаграммы с отсутствующим фрагментом.           Еще одна иллюстрация крайне неправильного многоугольника.

свертка

#изображение

В математике, условно говоря, смесь двух функций. В машинном обучении свертка смешивает сверточный фильтр и входную матрицу для обучения весов .

Термин «свертка» в машинном обучении часто является сокращением для обозначения сверточной операции или сверточного слоя .

Без сверток алгоритму машинного обучения пришлось бы изучать отдельный вес для каждой ячейки в большом тензоре . Например, алгоритм машинного обучения, обучающийся на изображениях размером 2K x 2K, будет вынужден найти 4M отдельных весов. Благодаря сверткам алгоритму машинного обучения достаточно найти веса для каждой ячейки в сверточном фильтре , что значительно сокращает объем памяти, необходимой для обучения модели. Когда применяется сверточный фильтр, он просто реплицируется по ячейкам, так что каждая из них умножается на фильтр.

Дополнительную информацию см. в разделе «Введение в сверточные нейронные сети» в курсе «Классификация изображений».

сверточный фильтр

#изображение

Один из двух участников сверточной операции . (Другой актер — это часть входной матрицы.) Сверточный фильтр — это матрица того же ранга , что и входная матрица, но меньшей формы. Например, для входной матрицы размером 28x28 фильтром может быть любая двумерная матрица размером меньше 28x28.

При фотографических манипуляциях для всех ячеек сверточного фильтра обычно устанавливается постоянный набор единиц и нулей. В машинном обучении сверточные фильтры обычно заполняют случайными числами, а затем сеть обучает идеальные значения.

Дополнительную информацию см. в разделе «Свертка» в курсе «Классификация изображений».

сверточный слой

#изображение

Слой глубокой нейронной сети , в котором сверточный фильтр проходит по входной матрице. Например, рассмотрим следующий сверточный фильтр 3x3:

Матрица 3x3 со следующими значениями: [[0,1,0], [1,0,1], [0,1,0]]

Следующая анимация показывает сверточный слой, состоящий из 9 сверточных операций с входной матрицей 5x5. Обратите внимание, что каждая сверточная операция работает с отдельным фрагментом входной матрицы размером 3x3. Полученная матрица 3x3 (справа) состоит из результатов 9 сверточных операций:

Анимация, показывающая две матрицы. Первая матрица — 5х5.           матрица: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].           Вторая матрица — это матрица 3х3:           [[181 303 618], [115 338 605], [169 351 560]].           Вторая матрица вычисляется путем применения сверточного метода           фильтровать [[0, 1, 0], [1, 0, 1], [0, 1, 0]] по           различные подмножества 3x3 матрицы 5x5.

Дополнительную информацию см. в разделе «Полностью связанные слои» курса «Классификация изображений».

сверточная нейронная сеть

#изображение

Нейронная сеть , в которой хотя бы один слой является сверточным . Типичная сверточная нейронная сеть состоит из некоторой комбинации следующих слоев:

Сверточные нейронные сети добились больших успехов в решении определенных задач, таких как распознавание изображений.

сверточная операция

#изображение

Следующая двухэтапная математическая операция:

  1. Поэлементное умножение сверточного фильтра и среза входной матрицы. (Срез входной матрицы имеет тот же ранг и размер, что и сверточный фильтр.)
  2. Суммирование всех значений в результирующей матрице продуктов.

Например, рассмотрим следующую входную матрицу 5x5:

Матрица 5x5: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Теперь представьте себе следующий сверточный фильтр 2x2:

Матрица 2x2: [[1, 0], [0, 1]]

Каждая сверточная операция включает в себя один срез входной матрицы размером 2x2. Например, предположим, что мы используем срез 2x2 в верхнем левом углу входной матрицы. Итак, операция свертки на этом срезе выглядит следующим образом:

Применение сверточного фильтра [[1, 0], [0, 1]] в верхнем левом углу           Раздел входной матрицы размером 2x2, то есть [[128,97], [35,22]].           Сверточный фильтр оставляет 128 и 22 нетронутыми, но обнуляет           из 97 и 35. Следовательно, операция свертки дает           значение 150 (128+22).

Сверточный слой состоит из серии сверточных операций, каждая из которых воздействует на отдельный фрагмент входной матрицы.

расходы

Синоним потери .

совместное обучение

Подход к полуконтролируемому обучению особенно полезен, когда выполняются все следующие условия:

Совместное обучение, по сути, усиливает независимые сигналы в более сильный сигнал. Например, рассмотрим модель классификации , которая классифицирует отдельные подержанные автомобили как « Хорошие» или «Плохие» . Один набор прогнозирующих функций может быть сосредоточен на совокупных характеристиках, таких как год, марка и модель автомобиля; другой набор прогнозирующих функций может быть сосредоточен на послужном списке предыдущего владельца и истории технического обслуживания автомобиля.

Основополагающая статья о совместном обучении — «Объединение размеченных и неразмеченных данных с совместным обучением» Блюма и Митчелла.

контрфактическая справедливость

#справедливость

Метрика справедливости , которая проверяет, дает ли классификатор тот же результат для одного человека, что и для другого человека, идентичного первому, за исключением одного или нескольких чувствительных атрибутов . Оценка классификатора на предмет контрфактической справедливости является одним из методов выявления потенциальных источников систематической ошибки в модели.

Дополнительную информацию см. в одном из следующих разделов:

смещение охвата

#справедливость

См. смещение выбора .

крах цветения

#язык

Предложение или фраза с неоднозначным смыслом. Цветение сбоев представляет собой серьезную проблему в понимании естественного языка . Например, заголовок «Красная лента держит небоскреб» — это настоящий крах, потому что модель NLU может интерпретировать заголовок буквально или фигурально.

критик

#рл

Синоним Deep Q-Network .

перекрестная энтропия

Обобщение Log Loss для задач многоклассовой классификации . Перекрестная энтропия количественно определяет разницу между двумя распределениями вероятностей. См. также недоумение .

перекрестная проверка

Механизм оценки того, насколько хорошо модель будет обобщаться на новые данные, путем тестирования модели на одном или нескольких непересекающихся подмножествах данных, исключенных из обучающего набора .

кумулятивная функция распределения (CDF)

Функция, определяющая частоту выборок, меньшую или равную целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. CDF сообщает вам, что примерно 50% выборок должны быть меньше или равны среднему значению и что примерно 84% выборок должны быть меньше или равны одному стандартному отклонению выше среднего.

Д

анализ данных

Получение понимания данных путем рассмотрения образцов, измерений и визуализации. Анализ данных может быть особенно полезен, когда набор данных получен впервые, прежде чем будет построена первая модель . Это также имеет решающее значение для понимания экспериментов и устранения проблем в системе.

увеличение данных

#изображение

Искусственное увеличение диапазона и количества обучающих примеров путем преобразования существующих примеров для создания дополнительных примеров. Например, предположим, что изображения являются одним из ваших объектов , но ваш набор данных не содержит достаточно примеров изображений, чтобы модель могла изучить полезные ассоциации. В идеале вы должны добавить в свой набор данных достаточно помеченных изображений, чтобы ваша модель могла правильно обучаться. Если это невозможно, увеличение данных может вращать, растягивать и отражать каждое изображение, чтобы создать множество вариантов исходного изображения, что, возможно, даст достаточно помеченных данных, чтобы обеспечить отличное обучение.

DataFrame

#основы

Популярный тип данных pandas для представления наборов данных в памяти.

DataFrame аналогичен таблице или электронной таблице. Каждый столбец DataFrame имеет имя (заголовок), а каждая строка идентифицируется уникальным номером.

Каждый столбец в DataFrame структурирован как двумерный массив, за исключением того, что каждому столбцу можно назначить свой собственный тип данных.

См. также официальную справочную страницу pandas.DataFrame .

параллелизм данных

Способ масштабирования обучения или вывода , который реплицирует всю модель на несколько устройств, а затем передает подмножество входных данных на каждое устройство. Параллелизм данных может обеспечить обучение и получение выводов для пакетов очень больших размеров ; однако параллелизм данных требует, чтобы модель была достаточно маленькой, чтобы ее можно было разместить на всех устройствах.

Параллелизм данных обычно ускоряет обучение и вывод.

См. также модель параллелизма .

API набора данных (tf.data)

#TensorFlow

Высокоуровневый API TensorFlow для чтения данных и преобразования их в форму, необходимую алгоритму машинного обучения. Объект tf.data.Dataset представляет собой последовательность элементов, в которой каждый элемент содержит один или несколько Tensor . Объект tf.data.Iterator обеспечивает доступ к элементам Dataset .

набор данных или набор данных

#основы

Коллекция необработанных данных, обычно (но не исключительно) организованная в одном из следующих форматов:

  • электронная таблица
  • файл в формате CSV (значения, разделенные запятыми)

граница решения

Разделитель между классами, изучаемыми моделью в двоичном классе или в задачах классификации нескольких классов . Например, на следующем изображении, представляющем задачу бинарной классификации, границей решения является граница между оранжевым классом и синим классом:

Четкая граница между одним классом и другим.

лес решений

#df

Модель, созданная из нескольких деревьев решений . Лес решений делает прогноз путем агрегирования прогнозов своих деревьев решений. Популярные типы лесов решений включают случайные леса и деревья с градиентным усилением .

Дополнительную информацию см. в разделе «Леса решений» курса «Леса решений».

порог принятия решения

Синоним порога классификации .

дерево решений

#df

Модель контролируемого обучения, состоящая из набора условий и листьев, организованных иерархически. Например, следующее дерево решений:

Дерево решений, состоящее из четырех условий, расположенных           иерархически, что приводит к пяти листьям.

декодер

#язык

В общем, любая система машинного обучения, которая преобразуется из обработанного, плотного или внутреннего представления в более необработанное, разреженное или внешнее представление.

Декодеры часто являются компонентами более крупных моделей, где они часто работают в паре с кодером .

В задачах последовательного преобразования декодер начинает с внутреннего состояния, сгенерированного кодером, для прогнозирования следующей последовательности.

Обратитесь к Transformer для определения декодера в архитектуре Transformer.

Дополнительные сведения см. в разделе «Большие языковые модели» в ускоренном курсе машинного обучения.

глубокая модель

#основы

Нейронная сеть, содержащая более одного скрытого слоя .

Глубокую модель еще называют глубокой нейронной сетью .

Контраст с широкой моделью .

глубокая нейронная сеть

Синоним глубокой модели .

Глубокая Q-сеть (DQN)

#рл

В Q-learning — глубокая нейронная сеть , предсказывающая Q-функции .

Критик — синоним Deep Q-Network.

демографический паритет

#справедливость

Метрика справедливости , которая удовлетворяется, если результаты классификации модели не зависят от заданного конфиденциального атрибута .

Например, если и лилипуты, и бробдингнаги подают документы в университет Глуббдубдриб, демографический паритет достигается, если процент принятых лилипутов такой же, как процент принятых бробдингнагов, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.

Сравните с уравниванием шансов и равенством возможностей , которые позволяют результатам классификации в совокупности зависеть от конфиденциальных атрибутов, но не позволяют результатам классификации для определенных указанных основных меток истинности зависеть от конфиденциальных атрибутов. См. «Борьба с дискриминацией с помощью более разумного машинного обучения» , где представлена ​​визуализация компромиссов при оптимизации для достижения демографического паритета.

Дополнительную информацию см. в разделе «Справедливость: демографический паритет» в ускоренном курсе машинного обучения.

шумоподавление

#язык

Общий подход к самостоятельному обучению , при котором:

  1. В набор данных искусственно добавляется шум .
  2. Модель пытается убрать шум.

Шумоподавление позволяет учиться на немаркированных примерах . Исходный набор данных служит целью или меткой , а зашумленные данные — входными данными.

Некоторые модели языка в масках используют шумоподавление следующим образом:

  1. Шум искусственно добавляется к непомеченному предложению путем маскировки некоторых токенов.
  2. Модель пытается предсказать исходные токены.

плотная особенность

#основы

Функция , в которой большинство или все значения не равны нулю, обычно это тензор значений с плавающей запятой. Например, следующий 10-элементный тензор является плотным, поскольку 9 его значений не равны нулю:

8 3 7 5 2 4 0 4 9 6

Контраст с редкими функциями .

плотный слой

Синоним полносвязного слоя .

глубина

#основы

Сумма следующего в нейронной сети :

Например, нейронная сеть с пятью скрытыми слоями и одним выходным слоем имеет глубину 6.

Обратите внимание, что входной слой не влияет на глубину.

сверточная нейронная сеть с глубоким разделением (sepCNN)

#изображение

Архитектура сверточной нейронной сети, основанная на Inception , но в которой модули Inception заменены глубинно разделимыми свертками. Также известен как Xception.

Разделимая по глубине свертка (также сокращенно называемая разделимой сверткой) разделяет стандартную трехмерную свертку на две отдельные операции свертки, которые более эффективны в вычислительном отношении: во-первых, глубинная свертка с глубиной 1 (n ✕ n ✕ 1), а затем, во-вторых, точечная свертка длиной и шириной 1 (1 ✕ 1 ✕ n).

Чтобы узнать больше, см. Xception: глубокое обучение с глубинно разделяемыми свертками .

производная метка

Синоним метки прокси .

устройство

#TensorFlow
#GoogleCloud

Перегруженный термин со следующими двумя возможными определениями:

  1. Категория оборудования, на котором можно запустить сеанс TensorFlow, включая процессоры, графические процессоры и TPU .
  2. При обучении модели МО на чипах-ускорителях (GPU или TPU) — той части системы, которая фактически манипулирует тензорами и внедрениями . Устройство работает на чипах-ускорителях. Напротив, хост обычно работает на процессоре.

дифференциальная конфиденциальность

В машинном обучении — подход анонимизации для защиты любых конфиденциальных данных (например, личной информации человека), включенных в обучающий набор модели, от раскрытия. Такой подход гарантирует, что модель не узнает и не запомнит многого о конкретном человеке. Это достигается путем выборки и добавления шума во время обучения модели, чтобы скрыть отдельные точки данных, снижая риск раскрытия конфиденциальных данных обучения.

Дифференциальная конфиденциальность также используется за пределами машинного обучения. Например, специалисты по обработке данных иногда используют дифференциальную конфиденциальность для защиты индивидуальной конфиденциальности при расчете статистики использования продуктов для разных демографических групп.

уменьшение размеров

Уменьшение количества измерений, используемых для представления определенного объекта в векторе объектов, обычно путем преобразования в вектор внедрения .

размеры

Перегруженный термин, имеющий любое из следующих определений:

  • Количество уровней координат в тензоре . Например:

    • Скаляр имеет нулевые измерения; например, ["Hello"] .
    • Вектор имеет одно измерение; например, [3, 5, 7, 11] .
    • Матрица имеет два измерения; например, [[2, 4, 18], [5, 7, 14]] . Вы можете однозначно указать конкретную ячейку в одномерном векторе с одной координатой; вам нужны две координаты, чтобы однозначно указать конкретную ячейку в двумерной матрице.
  • Количество записей в векторе признаков .

  • Количество элементов в слое внедрения .

прямое побуждение

#язык
#генеративныйИИ

Синоним подсказки с нулевым выстрелом .

дискретная функция

#основы

Объект с конечным набором возможных значений. Например, признак, значения которого могут быть только «животное» , «растение» или «минерал», является дискретным (или категориальным) признаком.

Контраст с непрерывной функцией .

дискриминационная модель

Модель , которая прогнозирует метки на основе набора одного или нескольких признаков . Более формально, дискриминационные модели определяют условную вероятность результата с учетом признаков и весов ; то есть:

p(output | features, weights)

Например, модель, которая предсказывает, является ли электронное письмо спамом на основе функций и весов, является дискриминационной моделью.

Подавляющее большинство моделей обучения с учителем, включая модели классификации и регрессии, являются дискриминативными моделями.

Сравните с генеративной моделью .

дискриминатор

Система, определяющая, настоящие примеры или подделка.

Альтернативно, это подсистема в генеративно-состязательной сети , которая определяет, являются ли примеры, созданные генератором, реальными или поддельными.

Дополнительную информацию см. в разделе «Дискриминатор» в курсе GAN.

несопоставимое воздействие

#справедливость

Принятие решений о людях, которые непропорционально влияют на разные подгруппы населения. Обычно это относится к ситуациям, когда алгоритмический процесс принятия решений вредит или приносит пользу одним подгруппам больше, чем другим.

Например, предположим, что алгоритм, определяющий право лилипутов на получение кредита на миниатюрный дом, с большей вероятностью классифицирует их как «неправомочных», если их почтовый адрес содержит определенный почтовый индекс. Если лилипуты с прямым порядком байтов с большей вероятностью будут иметь почтовые адреса с этим почтовым индексом, чем лилипуты с прямым порядком байтов, то этот алгоритм может привести к несопоставимому воздействию.

В отличие от несопоставимого подхода , который фокусируется на различиях, возникающих в результате того, что характеристики подгруппы являются явными входными данными для алгоритмического процесса принятия решений.

несопоставимое обращение

#справедливость

Включение чувствительных качеств субъектов в алгоритмический процесс принятия решений, при котором к различным подгруппам людей относятся по-разному.

Например, рассмотрим алгоритм, который определяет право лилипутов на получение кредита на строительство миниатюрного дома на основе данных, которые они предоставляют в своей заявке на кредит. Если алгоритм использует в качестве входных данных принадлежность лилипута к Big-Endian или Little-Endian, он применяет несопоставимую обработку по этому измерению.

Сравните с несопоставимым воздействием , которое фокусируется на различиях в социальном воздействии алгоритмических решений на подгруппы, независимо от того, являются ли эти подгруппы входными данными для модели.

дистилляция

#генеративныйИИ

Процесс уменьшения размера одной модели (известной как учитель ) до модели меньшего размера (известной как ученик ), которая максимально точно имитирует предсказания исходной модели. Дистилляция полезна, поскольку меньшая модель имеет два ключевых преимущества перед более крупной моделью (учителем):

  • Более быстрое время вывода
  • Уменьшение потребления памяти и энергии.

Однако прогнозы ученика обычно не так хороши, как прогнозы учителя.

Дистилляция обучает модель ученика минимизировать функцию потерь на основе разницы между результатами прогнозов моделей ученика и учителя.

Сравните и сопоставьте дистилляцию со следующими терминами:

Дополнительную информацию см. в разделе «LLM: точная настройка, дистилляция и быстрое проектирование» в ускоренном курсе машинного обучения.

распределение

Частота и диапазон различных значений для данного признака или метки . Распределение показывает, насколько вероятно то или иное значение.

На следующем изображении показаны гистограммы двух разных распределений:

  • Слева — степенное распределение богатства в зависимости от количества людей, владеющих этим богатством.
  • Справа — нормальное распределение роста в зависимости от количества людей с таким ростом.

Две гистограммы. Одна гистограмма показывает степенное распределение с           богатство на оси X и количество людей, обладающих этим богатством на оси X.           ось Y. У большинства людей очень мало богатства, а у немногих есть           много богатства. Другая гистограмма показывает нормальное распределение.           с высотой по оси X и количеством людей такого роста           по оси Y. Большинство людей группируются где-то рядом со средним значением.

Понимание распределения каждого объекта и меток поможет вам определить, как нормализовать значения и обнаружить выбросы .

Фраза вне распространения относится к значению, которое не появляется в наборе данных или встречается очень редко. Например, изображение планеты Сатурн будет считаться вышедшим из распространения для набора данных, состоящего из изображений кошек.

разделительная кластеризация

#кластеризация

См. иерархическую кластеризацию .

понижение частоты дискретизации

#изображение

Перегруженный термин, который может означать одно из следующего:

  • Уменьшение количества информации в признаке для более эффективного обучения модели. Например, перед тренировкой модели распознавания изображений необходимо выполнить преобразование изображений с высоким разрешением в формат с более низким разрешением.
  • Обучение на непропорционально низком проценте примеров перепредставленных классов с целью улучшения обучения модели на недостаточно представленных классах. Например, в наборе данных с несбалансированным классом модели, как правило, много узнают о классе большинства и недостаточно о классе меньшинства . Понижение выборки помогает сбалансировать объем обучения в классах большинства и меньшинства.

Дополнительную информацию см. в разделе «Наборы данных: несбалансированные наборы данных» в ускоренном курсе машинного обучения.

ДКН

#рл

Аббревиатура Deep Q-Network .

регуляризация отсева

Форма регуляризации, полезная при обучении нейронных сетей . Регуляризация отсева удаляет случайный выбор фиксированного количества единиц в сетевом слое для одного шага градиента. Чем больше единиц выпадало, тем сильнее регуляризация. Это аналогично обучению сети эмуляции экспоненциально большого ансамбля меньших сетей. Подробную информацию см. в разделе Dropout: простой способ предотвратить переобучение нейронных сетей .

динамичный

#основы

Что-то, что делается часто или постоянно. Термины динамический и онлайн являются синонимами в машинном обучении. Ниже приведены распространенные варианты использования динамического и онлайн- обучения в машинном обучении:

  • Динамическая модель (или онлайн-модель ) — это модель, которая часто или непрерывно переобучается.
  • Динамическое обучение (или онлайн-обучение ) — это процесс частого или непрерывного обучения.
  • Динамический вывод (или онлайн-вывод ) — это процесс генерации прогнозов по требованию.

динамическая модель

#основы

Модель , которая часто (возможно, даже постоянно) переобучается. Динамическая модель — это «обучение на протяжении всей жизни», которое постоянно адаптируется к меняющимся данным. Динамическая модель также известна как онлайн-модель .

Контраст со статической моделью .

Э

нетерпеливое исполнение

#TensorFlow

Среда программирования TensorFlow, в которой операции выполняются немедленно. Напротив, операции, вызываемые при выполнении графа, не выполняются до тех пор, пока они не будут явно оценены. Стремительное выполнение — это императивный интерфейс , очень похожий на код большинства языков программирования. Программы быстрого выполнения обычно гораздо легче отлаживать, чем программы выполнения на графе.

ранняя остановка

#основы

Метод регуляризации , который предполагает прекращение обучения до того, как перестанут уменьшаться потери при обучении. При ранней остановке вы намеренно прекращаете обучение модели, когда потери в наборе проверочных данных начинают увеличиваться; то есть, когда производительность обобщения ухудшается.

расстояние землеройной машины (EMD)

Мера относительного сходства двух распределений . Чем меньше расстояние, на которое проехал землеройный комбайн, тем более схожими являются распределения.

изменить расстояние

#язык

Измерение того, насколько похожи две текстовые строки друг на друга. В машинном обучении расстояние редактирования полезно по следующим причинам:

  • Расстояние редактирования легко вычислить.
  • Расстояние редактирования позволяет сравнивать две строки, которые, как известно, похожи друг на друга.
  • Расстояние редактирования может определять степень сходства различных строк с данной строкой.

Существует несколько определений расстояния редактирования, каждое из которых использует разные строковые операции. См. пример расстояния Левенштейна .

Обозначение Эйнсума

Эффективное обозначение для описания того, как следует комбинировать два тензора . Тензоры объединяются путем умножения элементов одного тензора на элементы другого тензора и последующего суммирования произведений. В нотации Einsum используются символы для обозначения осей каждого тензора, и те же самые символы переставляются, чтобы указать форму нового результирующего тензора.

NumPy предоставляет общую реализацию Einsum.

слой внедрения

#язык
#основы

Специальный скрытый слой , который обучается на многомерном категориальном признаке для постепенного изучения вектора внедрения более низкого измерения. Слой внедрения позволяет нейронной сети обучаться гораздо эффективнее, чем обучение только на многомерном категориальном признаке.

Например, на Земле в настоящее время произрастает около 73 000 видов деревьев. Предположим, что виды деревьев являются признаком вашей модели, поэтому входной слой вашей модели включает в себя вектор длиной 73 000 элементов. Например, возможно, baobab можно было бы представить примерно так:

Массив из 73 000 элементов. Первые 6232 элемента содержат значение      0. Следующий элемент содержит значение 1. Последние 66 767 элементов содержат значение      значение ноль.

Массив из 73 000 элементов очень длинный. Если вы не добавите в модель слой внедрения, обучение займет очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете слой внедрения, состоящий из 12 измерений. Следовательно, слой внедрения постепенно изучает новый вектор внедрения для каждой породы деревьев.

В определенных ситуациях хеширование является разумной альтернативой слою внедрения.

Дополнительную информацию см. в разделе «Внедрения в ускоренный курс машинного обучения».

пространство для встраивания

#язык

Сопоставляется d-мерное векторное пространство, являющееся частью векторного пространства более высокой размерности. Пространство внедрения обучено захвату структуры, значимой для предполагаемого приложения.

Скалярное произведение двух вложений является мерой их сходства.

вектор внедрения

#язык

Грубо говоря, массив чисел с плавающей запятой, взятый из любого скрытого слоя и описывающий входные данные этого скрытого слоя. Часто вектор внедрения представляет собой массив чисел с плавающей запятой, обученный на слое внедрения. Например, предположим, что слой внедрения должен изучить вектор внедрения для каждого из 73 000 видов деревьев на Земле. Возможно, следующий массив является вектором внедрения дерева баобаба:

Массив из 12 элементов, каждый из которых содержит число с плавающей запятой.           между 0,0 и 1,0.

Вектор внедрения — это не набор случайных чисел. Слой внедрения определяет эти значения посредством обучения, аналогично тому, как нейронная сеть изучает другие веса во время обучения. Каждый элемент массива представляет собой рейтинг по некоторой характеристике породы дерева. Какой элемент представляет характеристику какой породы деревьев? Людям это очень сложно определить.

Математически примечательная часть вектора внедрения заключается в том, что аналогичные элементы имеют одинаковые наборы чисел с плавающей запятой. Например, похожие породы деревьев имеют более похожий набор чисел с плавающей запятой, чем разные породы деревьев. Секвойи и секвойи являются родственными породами деревьев, поэтому у них будет более похожий набор чисел с плавающей запятой, чем у секвой и кокосовых пальм. Числа в векторе внедрения будут меняться каждый раз, когда вы переобучаете модель, даже если вы переобучаете модель с идентичными входными данными.

эмпирическая кумулятивная функция распределения (eCDF или EDF)

Кумулятивная функция распределения , основанная на эмпирических измерениях на основе реального набора данных. Значение функции в любой точке вдоль оси X — это доля наблюдений в наборе данных, которые меньше или равны указанному значению.

минимизация эмпирического риска (ERM)

Выбор функции, минимизирующей потери на обучающем наборе. Контраст с минимизацией структурного риска .

кодер

#язык

В общем, любая система машинного обучения, которая преобразует необработанное, разреженное или внешнее представление в более обработанное, более плотное или более внутреннее представление.

Кодеры часто являются компонентом более крупной модели, где они часто работают в паре с декодером . Некоторые Трансформеры объединяют кодеры с декодерами, хотя другие Трансформеры используют только кодер или только декодер.

Некоторые системы используют выходные данные кодировщика в качестве входных данных для сети классификации или регрессии.

В задачах «последовательность-последовательность» кодер принимает входную последовательность и возвращает внутреннее состояние (вектор). Затем декодер использует это внутреннее состояние для прогнозирования следующей последовательности.

Обратитесь к Transformer для определения кодера в архитектуре Transformer.

Дополнительную информацию см. в разделе LLM: Что такое большая языковая модель в ускоренном курсе машинного обучения.

ансамбль

Коллекция моделей, обученных независимо, чьи прогнозы усредняются или агрегируются. Во многих случаях ансамбль дает лучшие прогнозы, чем одна модель. Например, случайный лес — это ансамбль, построенный из нескольких деревьев решений . Обратите внимание, что не все леса решений являются ансамблями.

Дополнительную информацию см. в разделе «Случайный лес в ускоренном курсе машинного обучения».

энтропия

#df

В теории информации — описание того, насколько непредсказуемо распределение вероятностей. Альтернативно, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

  • H — энтропия.
  • p — доля примеров «1».
  • q — доля примеров «0». Обратите внимание, что q = (1 - p)
  • log обычно равен log 2 . В данном случае единицей энтропии является бит.

Например, предположим следующее:

  • 100 примеров содержат значение «1»
  • 300 примеров содержат значение «0»

Следовательно, значение энтропии равно:

  • р = 0,25
  • q = 0,75
  • H = (-0,25)log 2 (0,25) - (0,75)log 2 (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 «0» и 200 «1») будет иметь энтропию 1,0 бита на каждый пример. Когда набор становится более несбалансированным , его энтропия приближается к 0,0.

В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия во время роста дерева решений классификации.

Сравните энтропию с:

Энтропию часто называют энтропией Шеннона .

Дополнительную информацию см. в разделе Точный разделитель для двоичной классификации с числовыми признаками в курсе «Леса решений».

среда

#рл

В обучении с подкреплением — мир, в котором находится агент и который позволяет агенту наблюдать за состоянием этого мира. Например, представленный мир может быть игрой, например шахматами, или физическим миром, например лабиринтом. Когда агент применяет действие к среде, среда переходит между состояниями.

эпизод

#рл

При обучении с подкреплением — каждая из повторяющихся попыток агента изучить окружающую среду .

эпоха

#основы

Полный проход обучения по всему обучающему набору , при котором каждый пример обрабатывается один раз.

Эпоха представляет собой N / итераций обучения размера пакета , где N — общее количество примеров.

Например, предположим следующее:

  • Набор данных состоит из 1000 примеров.
  • Размер партии — 50 экземпляров.

Следовательно, для одной эпохи требуется 20 итераций:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

жадная политика Эпсилон

#рл

В обучении с подкреплением - политика , которая следует либо случайной политике с эпсилон-вероятностью, либо жадной политике в противном случае. Например, если эпсилон равен 0,9, то политика следует случайной политике в 90% случаев и жадной политике в 10% случаев.

В последовательных эпизодах алгоритм уменьшает значение эпсилона, чтобы перейти от следования случайной политике к жадной политике. Изменяя политику, агент сначала случайным образом исследует окружающую среду, а затем жадно использует результаты случайного исследования.

равенство возможностей

#справедливость

Метрика справедливости , позволяющая оценить, одинаково ли хорошо модель предсказывает желаемый результат для всех значений чувствительного атрибута . Другими словами, если желаемым результатом модели является положительный класс , цель состоит в том, чтобы истинный положительный уровень был одинаковым для всех групп.

Равенство возможностей связано с уравниванием шансов , которое требует, чтобы как истинно положительные, так и ложноположительные показатели были одинаковыми для всех групп.

Предположим, университет Глаббдубдриб принимает как лилипутов, так и бробдингнегов на строгую математическую программу. Средние школы лилипутов предлагают обширную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. В средних школах Бробдингнеджана вообще не проводятся занятия по математике, и в результате гораздо меньше учеников имеют соответствующую квалификацию. Равенство возможностей соблюдается для предпочтительного ярлыка «допущенный» в отношении национальности (лилипут или бробдингнаг), если квалифицированные студенты имеют одинаковую вероятность быть принятыми независимо от того, являются ли они лилипутами или бробдингнегами.

Например, предположим, что 100 лилипутов и 100 бробдингнагцев подают заявки в университет Глаббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 1. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 3
Отклоненный 45 7
Общий 90 10
Процент зачисленных квалифицированных студентов: 45/90 = 50%.
Процент отклоненных неквалифицированных студентов: 7/10 = 70%
Общий процент принятых студентов-лилипутов: (45+3)/100 = 48%.

Таблица 2. Кандидаты из Бробдингнага (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 9
Отклоненный 5 81
Общий 10 90
Процент принятых квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 81/90 = 90%.
Общий процент зачисленных студентов Бробдингнага: (5+9)/100 = 14%.

Предыдущие примеры удовлетворяют равенству возможностей для приема квалифицированных студентов, поскольку квалифицированные лилипуты и бробдингнаги имеют 50% шансов на поступление.

Хотя равенство возможностей соблюдается, следующие два показателя справедливости не выполняются:

  • демографический паритет : лилипуты и бробдингнаги принимаются в университет с разной скоростью; Принимаются 48% студентов-лилипутов, но только 14% студентов-бробдингнегов.
  • уравненные шансы : хотя квалифицированные студенты-лилипуты и бробдингнаги имеют одинаковые шансы на поступление, дополнительное ограничение, заключающееся в том, что неквалифицированные лилипуты и бробдингнаги имеют одинаковые шансы быть отвергнутыми, не удовлетворяется. У неквалифицированных лилипутов процент отказов составляет 70%, тогда как у неквалифицированных бробдингнегов — 90%.

Дополнительную информацию см. в разделе «Справедливость: равенство возможностей в ускоренном курсе машинного обучения».

уравненные шансы

#справедливость

Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель прогнозирует результаты для всех значений чувствительного атрибута как в отношении положительного, так и в отношении отрицательного класса, а не только одного или другого класса. Другими словами, как истинно положительный уровень , так и уровень ложноотрицательного результата должны быть одинаковыми для всех групп.

Уравненные шансы связаны с равенством возможностей , которое фокусируется только на частоте ошибок для одного класса (положительных или отрицательных).

Например, предположим, что университет Глаббдубдриб принимает как лилипутов, так и бробдингнегов на строгую математическую программу. Средние школы лилипутов предлагают обширную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. В средних школах Бробдингнеджана вообще не проводятся занятия по математике, и в результате гораздо меньше учеников имеют соответствующую квалификацию. Уравненные шансы удовлетворяются при условии, что независимо от того, является ли заявитель лилипутом или бробдингнежцем, если он соответствует требованиям, он имеет одинаковую вероятность быть допущенным к программе, а если он не соответствует требованиям, он с одинаковой вероятностью будет отклонен. .

Предположим, 100 лилипутов и 100 бробдингнагцев подают заявки в университет Глаббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 3. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 2
Отклоненный 45 8
Общий 90 10
Процент зачисленных квалифицированных студентов: 45/90 = 50%.
Процент отклоненных неквалифицированных студентов: 8/10 = 80%
Общий процент зачисленных студентов-лилипутов: (45+2)/100 = 47%.

Таблица 4. Кандидаты из Бробдингнага (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 18
Отклоненный 5 72
Общий 10 90
Процент принятых квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 72/90 = 80%.
Общий процент зачисленных студентов Бробдингнега: (5+18)/100 = 23%.

Уравненные шансы удовлетворяются, потому что квалифицированные студенты-лилипуты и бробдингнеги имеют 50% шанс быть принятыми, а неквалифицированные лилипуты и бробдингнаги имеют 80% шанс быть отклоненными.

Уравненные шансы формально определены в «Равенстве возможностей в контролируемом обучении» следующим образом: «предиктор Ŷ удовлетворяет уравненным шансам в отношении защищенного атрибута A и результата Y, если Ŷ и A независимы, при условии зависимости от Y».

Оценщик

#TensorFlow

Устаревший API TensorFlow. Используйте tf.keras вместо оценщиков.

оценивает

#язык
#генеративныйИИ

В основном используется как аббревиатура для оценок LLM . В более широком смысле, evals — это аббревиатура, обозначающая любую форму оценки .

оценка

#язык
#генеративныйИИ

Процесс измерения качества модели или сравнения различных моделей друг с другом.

Чтобы оценить модель контролируемого машинного обучения , вы обычно сравниваете ее с набором проверки и набором тестов . Оценка LLM обычно включает в себя более широкую оценку качества и безопасности.

пример

#основы

Значения одной строки объектов и, возможно, метки . Примеры контролируемого обучения делятся на две общие категории:

  • Помеченный пример состоит из одного или нескольких объектов и метки. Маркированные примеры используются во время обучения.
  • Немаркированный пример состоит из одного или нескольких объектов, но без метки. Во время вывода используются немаркированные примеры.

Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. Вот три помеченных примера:

Функции Этикетка
Температура Влажность Давление Оценка теста
15 47 998 Хороший
19 34 1020 Отличный
18 92 1012 Бедный

Вот три немаркированных примера:

Температура Влажность Давление
12 62 1014
21 47 1017
19 41 1021

Строка набора данных обычно является необработанным источником примера. То есть пример обычно состоит из подмножества столбцов набора данных. Кроме того, объекты в примере также могут включать в себя синтетические объекты , такие как перекрестные объекты .

Дополнительную информацию см. в разделе «Обучение с учителем» в курсе «Введение в машинное обучение».

повтор опыта

#рл

В обучении с подкреплением — метод DQN, используемый для уменьшения временных корреляций в обучающих данных. Агент сохраняет переходы состояний в буфере воспроизведения , а затем выбирает переходы из буфера воспроизведения для создания обучающих данных.

предвзятость экспериментатора

#справедливость

См. предвзятость подтверждения .

проблема взрывающегося градиента

#seq

Тенденция градиентов в глубоких нейронных сетях (особенно в рекуррентных нейронных сетях ) становиться удивительно крутыми (высокими). Крутые градиенты часто приводят к очень большим обновлениям весов каждого узла в глубокой нейронной сети.

Модели, страдающие от проблемы взрывного градиента, становится трудно или невозможно обучать. Градиентное отсечение может решить эту проблему.

Сравните с проблемой исчезающего градиента .

Ф

Ф 1

«Сводная» метрика двоичной классификации , которая зависит как от точности , так и от полноты . Вот формула:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

фактичность

#генеративныйИИ

В мире МО — свойство, описывающее модель, выходные данные которой основаны на реальности. Фактичность — это скорее концепция, чем показатель. Например, предположим, что вы отправляете следующую подсказку в большую языковую модель :

Какова химическая формула поваренной соли?

Модель, оптимизирующая фактологию, ответила бы:

NaCl

Заманчиво предположить, что все модели должны основываться на фактах. Однако некоторые подсказки, такие как следующие, должны привести к тому, что генеративная модель ИИ оптимизирует творческий подход , а не фактологию .

Расскажи мне лимерик про космонавта и гусеницу.

Вряд ли получившийся лимерик будет основан на реальности.

Сравните с заземленностью .

ограничение справедливости

#справедливость
Применение ограничения к алгоритму для обеспечения соблюдения одного или нескольких определений справедливости. Примеры ограничений справедливости включают в себя:

показатель справедливости

#справедливость

Математическое определение «справедливости», поддающееся измерению. Некоторые часто используемые показатели справедливости включают в себя:

Многие показатели справедливости являются взаимоисключающими; см . несовместимость показателей справедливости .

ложноотрицательный (ЛН)

#основы

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (негативный класс), но на самом деле это сообщение электронной почты является спамом .

ложноотрицательный показатель

Доля реальных положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула рассчитывает уровень ложноотрицательных результатов:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

ложноположительный результат (FP)

#основы

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты не является спамом .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

уровень ложноположительных результатов (FPR)

#основы

Доля реальных отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает уровень ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Частота ложноположительных результатов — это ось X на кривой ROC .

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

особенность

#основы

Входная переменная модели машинного обучения. Пример состоит из одной или нескольких функций. Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. В следующей таблице показаны три примера, каждый из которых содержит три функции и одну метку:

Функции Этикетка
Температура Влажность Давление Оценка теста
15 47 998 92
19 34 1020 84
18 92 1012 87

Контраст с этикеткой .

Дополнительную информацию см. в разделе «Обучение с учителем» в курсе «Введение в машинное обучение».

особенность креста

#основы

Синтетический признак, образованный путем «пересечения» категориальных или группированных признаков.

Например, рассмотрим модель «прогноза настроения», которая представляет температуру в одном из следующих четырех сегментов:

  • freezing
  • chilly
  • temperate
  • warm

И представляет скорость ветра в одном из следующих трех сегментов:

  • still
  • light
  • windy

Без перекрестия функций линейная модель обучается независимо на каждом из семи предыдущих сегментов. Итак, модель тренируется, например, freezing независимо от тренировки, например, windy .

В качестве альтернативы вы можете создать перекрестную функцию температуры и скорости ветра. Эта синтетическая функция будет иметь следующие 12 возможных значений:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Благодаря крестикам функций модель может запоминать разницу в настроении между freezing-windy и freezing-still днем.

Если вы создадите синтетический объект из двух объектов, каждый из которых имеет множество разных сегментов, полученный кросс объектов будет иметь огромное количество возможных комбинаций. Например, если один объект имеет 1000 сегментов, а другой — 2000 сегментов, результирующий кросс объектов будет иметь 2 000 000 сегментов.

Формально крест — это декартово произведение .

Перекрещивания признаков в основном используются с линейными моделями и редко используются с нейронными сетями.

Дополнительную информацию см. в разделе Категориальные данные: перекрестия функций в ускоренном курсе машинного обучения.

разработка функций

#основы
#TensorFlow

Процесс, который включает в себя следующие этапы:

  1. Определение того, какие функции могут быть полезны при обучении модели.
  2. Преобразование необработанных данных из набора данных в эффективные версии этих функций.

Например, вы можете решить, что temperature может быть полезной функцией. Затем вы можете поэкспериментировать с группированием , чтобы оптимизировать то, что модель может узнать из разных temperature диапазонов.

Инжиниринг функций иногда называют извлечением функций или реализацией функций.

Дополнительные сведения см. в разделе «Численные данные: как модель принимает данные с использованием векторов признаков» в ускоренном курсе машинного обучения.

извлечение признаков

Перегруженный термин, имеющий одно из следующих определений:

важность функций

#df

Синоним переменных важностей .

набор функций

#основы

Группа функций, на которых тренируется ваша модель машинного обучения. Например, почтовый индекс, размер и состояние недвижимости могут составлять простой набор функций для модели, прогнозирующей цены на жилье.

спецификация функции

#TensorFlow

Описывает информацию, необходимую для извлечения данных функций из буфера протокола tf.Example . Поскольку буфер протокола tf.Example — это всего лишь контейнер для данных, необходимо указать следующее:

  • Данные для извлечения (то есть ключи для функций)
  • Тип данных (например, float или int)
  • Длина (фиксированная или переменная)

вектор признаков

#основы

Массив значений признаков , содержащий пример . Вектор признаков вводится во время обучения и во время вывода . Например, вектор признаков для модели с двумя дискретными признаками может быть следующим:

[0.92, 0.56]

Четыре слоя: входной слой, два скрытых слоя и один выходной слой.           Входной слой содержит два узла, один из которых содержит значение           0,92, а другой — со значением 0,56.

В каждом примере предоставляются разные значения вектора признаков, поэтому вектор признаков для следующего примера может выглядеть примерно так:

[0.73, 0.49]

Разработка признаков определяет, как представлять объекты в векторе признаков. Например, двоичный категориальный признак с пятью возможными значениями может быть представлен с помощью горячего кодирования . В этом случае часть вектора признаков для конкретного примера будет состоять из четырех нулей и одного 1,0 в третьей позиции, как показано ниже:

[0.0, 0.0, 1.0, 0.0, 0.0]

В качестве другого примера предположим, что ваша модель состоит из трех функций:

  • двоичный категориальный признак с пятью возможными значениями, представленными с помощью горячего кодирования; например: [0.0, 1.0, 0.0, 0.0, 0.0]
  • еще один двоичный категориальный признак с тремя возможными значениями, представленными с помощью горячего кодирования; например: [0.0, 0.0, 1.0]
  • функция с плавающей запятой; например: 8.3 .

В этом случае вектор признаков для каждого примера будет представлен девятью значениями. Учитывая примеры значений в предыдущем списке, вектор признаков будет следующим:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Дополнительные сведения см. в разделе «Численные данные: как модель принимает данные с использованием векторов признаков» в ускоренном курсе машинного обучения.

характеристика

Процесс извлечения признаков из источника входных данных, например документа или видео, и сопоставления этих признаков с вектором признаков .

Некоторые эксперты по ML используют функцию как синоним разработки функций или извлечения функций .

федеративное обучение

Подход распределенного машинного обучения, который обучает модели машинного обучения с использованием децентрализованных примеров, находящихся на таких устройствах, как смартфоны. При федеративном обучении подмножество устройств загружает текущую модель с центрального координационного сервера. Устройства используют примеры, хранящиеся на устройствах, для улучшения модели. Затем устройства загружают улучшения модели (но не обучающие примеры) на координирующий сервер, где они объединяются с другими обновлениями для получения улучшенной глобальной модели. После агрегирования обновления модели, вычисленные устройствами, больше не нужны и могут быть удалены.

Поскольку примеры обучения никогда не загружаются, федеративное обучение следует принципам конфиденциальности целенаправленного сбора и минимизации данных.

Дополнительные сведения о федеративном обучении см. в этом руководстве .

петля обратной связи

#основы

В машинном обучении — ситуация, в которой предсказания модели влияют на данные обучения для той же или другой модели. Например, модель, рекомендующая фильмы, будет влиять на фильмы, которые люди смотрят, что затем повлияет на последующие модели рекомендаций фильмов.

Дополнительные сведения см. в разделе «Производственные системы машинного обучения: вопросы, которые следует задать в ускоренном курсе машинного обучения».

нейронная сеть прямого распространения (FFN)

Нейронная сеть без циклических и рекурсивных связей. Например, традиционные глубокие нейронные сети представляют собой нейронные сети прямого распространения. Сравните с рекуррентными нейронными сетями , которые являются циклическими.

обучение в несколько этапов

Подход машинного обучения, часто используемый для классификации объектов, предназначенный для обучения эффективных классификаторов лишь на небольшом количестве обучающих примеров.

См. также однократное обучение и нулевое обучение .

подсказка из нескольких кадров

#язык
#генеративныйИИ

Приглашение , содержащее более одного («несколько») примеров, демонстрирующих, как должна реагировать большая языковая модель . Например, следующая длинная подсказка содержит два примера, показывающие большую языковую модель, как отвечать на запрос.

Части одной подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Франция: евро Один пример.
Великобритания: фунт стерлингов. Другой пример.
Индия: Фактический запрос.

Подсказки с небольшим количеством шагов обычно дают более желательные результаты, чем подсказки с нулевым шагом и одноразовые подсказки . Однако подсказка с несколькими выстрелами требует более длинной подсказки.

Подсказки в несколько этапов — это форма обучения в несколько этапов, применяемая к обучению на основе подсказок .

Дополнительную информацию см. в разделе «Быстрое проектирование» в ускоренном курсе машинного обучения.

скрипка

#язык

Библиотека конфигурации, ориентированная на Python, которая устанавливает значения функций и классов без инвазивного кода или инфраструктуры. В случае Pax и других баз кода ML эти функции и классы представляют модели и гиперпараметры обучения .

Фиддл предполагает, что базы кода машинного обучения обычно делятся на:

  • Код библиотеки, определяющий слои и оптимизаторы.
  • «Склеивающий» код набора данных, который вызывает библиотеки и связывает все воедино.

Fiddle фиксирует структуру вызовов связующего кода в неоцененной и изменяемой форме.

тонкая настройка

#язык
#изображение
#генеративныйИИ

Второй проход обучения для конкретной задачи, выполняемый на предварительно обученной модели для уточнения ее параметров для конкретного варианта использования. Например, полная последовательность обучения для некоторых больших языковых моделей выглядит следующим образом:

  1. Предварительное обучение: обучите большую языковую модель на обширном общем наборе данных, например на всех англоязычных страницах Википедии.
  2. Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например ответа на медицинские запросы. Точная настройка обычно включает сотни или тысячи примеров, ориентированных на конкретную задачу.

В качестве другого примера полная последовательность обучения для модели большого изображения выглядит следующим образом:

  1. Предварительное обучение: обучите большую модель изображения на обширном общем наборе данных изображений, например на всех изображениях в Wikimedia Commons.
  2. Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например генерации изображений косаток.

Точная настройка может включать любую комбинацию следующих стратегий:

  • Изменение всех существующих параметров предварительно обученной модели. Иногда это называют полной тонкой настройкой .
  • Изменение только некоторых существующих параметров предварительно обученной модели (обычно слоев, ближайших к выходному слою ), сохраняя при этом другие существующие параметры неизменными (обычно слои, ближайшие к входному слою ). См. настройку с эффективным использованием параметров .
  • Добавление дополнительных слоев, обычно поверх существующих слоев, ближайших к выходному слою.

Точная настройка — это форма трансферного обучения . Таким образом, при точной настройке может использоваться другая функция потерь или другой тип модели, чем те, которые используются для обучения предварительно обученной модели. Например, вы можете точно настроить предварительно обученную модель большого изображения для создания регрессионной модели, которая возвращает количество птиц во входном изображении.

Сравните и сопоставьте тонкую настройку со следующими терминами:

Дополнительные сведения см. в разделе «Точная настройка ускоренного курса машинного обучения».

Лен

#язык

Высокопроизводительная библиотека с открытым исходным кодом для глубокого обучения, построенная на основе JAX . Flax предоставляет функции для обучения нейронных сетей , а также методы оценки их производительности.

льноформер

#язык

Библиотека Transformer с открытым исходным кодом, построенная на Flax и предназначенная в первую очередь для обработки естественного языка и мультимодальных исследований.

забыть ворота

#seq

Часть клетки долговременной краткосрочной памяти , регулирующая поток информации через клетку. Ворота забывания поддерживают контекст, решая, какую информацию следует исключить из состояния ячейки.

доля успехов

#генеративныйИИ

Метрика для оценки текста, сгенерированного моделью машинного обучения. Доля успехов — это количество «успешных» сгенерированных текстовых выходных данных, деленное на общее количество сгенерированных текстовых выходных данных. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых оказались успешными, то доля успешных результатов составит 50%.

Хотя доля успехов широко полезна в статистике, в рамках машинного обучения этот показатель в первую очередь полезен для измерения проверяемых задач, таких как генерация кода или математические задачи.

полный софтмакс

Синоним softmax .

Сравните с выборкой кандидатов .

Дополнительную информацию см. в разделе «Нейронные сети: многоклассовая классификация» в ускоренном курсе машинного обучения.

полносвязный слой

Скрытый слой , в котором каждый узел соединен с каждым узлом последующего скрытого слоя.

Полносвязный слой также известен как плотный слой .

преобразование функции

Функция, которая принимает функцию в качестве входных данных и возвращает преобразованную функцию в качестве выходных данных. JAX использует преобразования функций.

Г

ГАН

Аббревиатура от генеративно-состязательной сети .

Близнецы

#язык
#изображение
#генеративныйИИ

Экосистема, включающая самый передовой искусственный интеллект Google. К элементам этой экосистемы относятся:

  • Различные модели Gemini .
  • Интерактивный диалоговый интерфейс модели Gemini . Пользователи вводят запросы, и Gemini отвечает на эти запросы.
  • Различные API Gemini.
  • Различные бизнес-продукты на основе моделей Gemini; например, Gemini для Google Cloud .

Модели Близнецов

#язык
#изображение
#генеративныйИИ

Новейшие мультимодальные модели Google на основе Transformer . Модели Gemini специально разработаны для интеграции с агентами .

Пользователи могут взаимодействовать с моделями Gemini различными способами, в том числе через интерактивный диалоговый интерфейс и через SDK.

обобщение

#основы

Способность модели делать правильные прогнозы на основе новых, ранее невидимых данных. Модель, которая может обобщать, является противоположностью модели, которая переоснащается .

Дополнительную информацию см. в разделе «Обобщение в ускоренном курсе машинного обучения».

кривая обобщения

#основы

График потерь при обучении и потерь при проверке в зависимости от количества итераций .

Кривая обобщения может помочь вам обнаружить возможное переобучение . Например, следующая кривая обобщения предполагает переобучение, поскольку потери при проверке в конечном итоге становятся значительно выше, чем потери при обучении.

Декартов график, на котором ось Y отмечена потерями, а ось X           называется итерациями. Появляются два сюжета. Один график показывает           потеря обучения, а другой показывает потерю проверки.           Оба графика начинаются одинаково, но в конечном итоге происходит потеря обучения.           падает намного ниже, чем потери при проверке.

Дополнительную информацию см. в разделе «Обобщение в ускоренном курсе машинного обучения».

обобщенная линейная модель

Обобщение моделей регрессии методом наименьших квадратов , основанных на гауссовском шуме , на другие типы моделей, основанных на других типах шума, таких как шум Пуассона или категориальный шум. Примеры обобщенных линейных моделей включают:

Параметры обобщенной линейной модели можно найти посредством выпуклой оптимизации .

Обобщенные линейные модели обладают следующими свойствами:

  • Среднее предсказание оптимальной модели регрессии наименьших квадратов равно средней метке обучающих данных.
  • Средняя вероятность, предсказанная оптимальной моделью логистической регрессии, равна средней метке обучающих данных.

Возможности обобщенной линейной модели ограничены ее особенностями. В отличие от глубокой модели, обобщенная линейная модель не может «обучиться новым функциям».

сгенерированный текст

#язык
#генеративныйИИ

В общем, текст, который выводит модель машинного обучения. При оценке больших языковых моделей некоторые метрики сравнивают сгенерированный текст с ссылочным текстом . Например, предположим, что вы пытаетесь определить, насколько эффективно модель машинного обучения переводится с французского на голландский. В этом случае:

  • Сгенерированный текст представляет собой голландский перевод, который выводит модель машинного обучения.
  • Справочный текст — это голландский перевод, созданный переводчиком-человеком (или программным обеспечением).

Обратите внимание, что некоторые стратегии оценки не включают справочный текст.

генеративно-состязательная сеть (GAN)

Система создания новых данных, в которой генератор создает данные, а дискриминатор определяет, действительны или недействительны эти созданные данные.

Дополнительную информацию см. в курсе «Генераторно-состязательные сети» .

генеративный ИИ

#язык
#изображение
#генеративныйИИ

Возникающее преобразующее поле без формального определения. Тем не менее, большинство экспертов сходятся во мнении, что генеративные модели ИИ могут создавать («генерировать») контент, который имеет все следующие характеристики:

  • сложный
  • последовательный
  • оригинальный

Например, генеративная модель ИИ может создавать сложные эссе или изображения.

Некоторые более ранние технологии, включая LSTM и RNN , также могут генерировать оригинальный и связный контент. Некоторые эксперты рассматривают эти более ранние технологии как генеративный ИИ, в то время как другие считают, что настоящий генеративный ИИ требует более сложных результатов, чем те, которые могут произвести более ранние технологии.

Сравните с прогнозным ML .

генеративная модель

Практически говоря, модель, которая выполняет одно из следующих действий:

  • Создает (генерирует) новые примеры из набора обучающих данных. Например, генеративная модель может создавать стихи после обучения на наборе данных стихов. Генераторная часть генеративно-состязательной сети попадает в эту категорию.
  • Определяет вероятность того, что новый пример взят из обучающего набора или был создан с помощью того же механизма, который создал обучающий набор. Например, после обучения на наборе данных, состоящем из английских предложений, генеративная модель может определить вероятность того, что новые входные данные являются действительным английским предложением.

Генеративная модель теоретически может определить распределение примеров или определенных функций в наборе данных. То есть:

p(examples)

Модели обучения без учителя являются порождающими.

Сравните с дискриминативными моделями .

генератор

Подсистема в генеративно-состязательной сети , создающая новые примеры .

Сравните с дискриминативной моделью .

Джини примесь

#df

Метрика, похожая на энтропию . Разделители используют значения, полученные либо из примеси Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации происходит от энтропии. Не существует общепринятого эквивалентного термина для показателя, полученного из примеси Джини; однако этот безымянный показатель так же важен, как и получение информации.

Примесь Джини еще называют индексом Джини , или просто Джини .

золотой набор данных

Набор вручную отобранных данных, отражающих основную информацию . Команды могут использовать один или несколько золотых наборов данных для оценки качества модели.

Некоторые «золотые наборы данных» отражают различные подобласти базовой истины. Например, золотой набор данных для классификации изображений может отражать условия освещения и разрешение изображения.

золотой ответ

#язык
#генеративныйИИ

Заведомо хороший ответ. Например, учитывая следующую подсказку :

2 + 2

Надеемся, что золотой ответ будет следующим:

4

GPT (Генераторный предварительно обученный трансформатор)

#язык

Семейство больших языковых моделей на основе Transformer , разработанное OpenAI .

Варианты GPT могут применяться к нескольким модальностям , в том числе:

  • генерация изображений (например, ImageGPT)
  • генерация текста в изображение (например, DALL-E ).

градиент

Вектор частных производных по всем независимым переменным. В машинном обучении градиент — это вектор частных производных модельной функции. Градиент указывает в направлении наибольшего подъема.

накопление градиента

Метод обратного распространения ошибки , который обновляет параметры только один раз за эпоху, а не один раз за итерацию. После обработки каждого мини-пакета функция накопления градиентов просто обновляет общее количество градиентов. Затем, после обработки последней мини-партии в эпоху, система наконец обновляет параметры на основе суммы всех изменений градиента.

Накопление градиента полезно, когда размер пакета очень велик по сравнению с объемом доступной памяти для обучения. Когда возникает проблема с памятью, естественной тенденцией является уменьшение размера пакета. Однако уменьшение размера пакета при обычном обратном распространении ошибки увеличивает количество обновлений параметров. Накопление градиента позволяет модели избежать проблем с памятью, но при этом эффективно обучаться.

Деревья решений (GBT) с градиентным усилением

#df

Тип леса решений , в котором:

Дополнительную информацию см. в разделе «Деревья решений с градиентным усилением» в курсе «Леса решений».

повышение градиента

#df

Алгоритм обучения, в котором слабые модели обучаются для итеративного улучшения качества (уменьшения потерь) сильной модели. Например, слабая модель может представлять собой линейную модель или модель небольшого дерева решений. Сильная модель становится суммой всех ранее обученных слабых моделей.

В простейшей форме повышения градиента на каждой итерации слабая модель обучается прогнозированию градиента потерь сильной модели. Затем выходные данные сильной модели обновляются путем вычитания прогнозируемого градиента, аналогично градиентному спуску .

$$F_{0} = 0$$$$F_{i+1} = F_i - \xi f_i $$

где:

  • $F_{0}$ — стартовая сильная модель.
  • $F_{i+1}$ — следующая сильная модель.
  • $F_{i}$ — текущая сильная модель.
  • $\xi$ — это значение от 0,0 до 1,0, называемое сжатием , которое аналогично скорости обучения при градиентном спуске.
  • $f_{i}$ — слабая модель, обученная прогнозировать градиент потерь $F_{i}$.

Современные варианты повышения градиента также включают в свои вычисления вторую производную (гессиан) потерь.

Деревья решений обычно используются в качестве слабых моделей при повышении градиента. См . деревья решений (решений) с градиентным усилением .

градиентная обрезка

#seq

Часто используемый механизм для смягчения проблемы взрывающегося градиента путем искусственного ограничения (обрезания) максимального значения градиентов при использовании градиентного спуска для обучения модели.

градиентный спуск

#основы

Математический метод минимизации потерь . Градиентный спуск итеративно корректирует веса и смещения , постепенно находя наилучшую комбинацию для минимизации потерь.

Градиентный спуск старше — намного старше — чем машинное обучение.

Дополнительную информацию см. в разделе «Линейная регрессия: градиентный спуск в ускоренном курсе машинного обучения».

график

#TensorFlow

В TensorFlow — спецификация вычислений. Узлы графа представляют операции. Ребра являются направленными и представляют собой передачу результата операции ( Tensor ) в качестве операнда в другую операцию. Используйте TensorBoard для визуализации графика.

выполнение графа

#TensorFlow

Среда программирования TensorFlow, в которой программа сначала создает граф , а затем выполняет весь или часть этого графа. Выполнение графа — это режим выполнения по умолчанию в TensorFlow 1.x.

Сравните с нетерпеливым исполнением .

жадная политика

#рл

В обучении с подкреплением — политика , которая всегда выбирает действие с наибольшей ожидаемой отдачей .

заземленность

Свойство модели, выходные данные которой основаны на конкретном исходном материале (основаны на нем). Например, предположим, что вы предоставляете целый учебник физики в качестве входных данных («контекста») для большой языковой модели . Затем вы задаете этой большой языковой модели вопрос по физике. Если ответ модели отражает информацию из этого учебника, то эта модель основана на этом учебнике.

Обратите внимание, что обоснованная модель не всегда является фактической моделью. Например, входной учебник по физике мог содержать ошибки.

основная истина

#основы

Реальность.

То, что произошло на самом деле.

Например, рассмотрим модель бинарной классификации , которая предсказывает, окончит ли студент первого курса университета обучение в течение шести лет. Основная истина для этой модели заключается в том, действительно ли этот студент окончил обучение в течение шести лет.

предвзятость групповой атрибуции

#справедливость

Предполагается, что то, что верно для отдельного человека, верно и для всех членов этой группы. Эффект предвзятости групповой атрибуции может усугубиться, если для сбора данных используется удобная выборка . В нерепрезентативной выборке могут быть сделаны атрибуции, не отражающие реальность.

См. также смещение из-за однородности чужой группы и смещение внутри группы . Также для получения дополнительной информации см. «Справедливость: типы предвзятости в ускоренном курсе машинного обучения».

ЧАС

галлюцинация

#язык

Производство кажущихся правдоподобными, но на самом деле неверных результатов с помощью генеративной модели ИИ , которая якобы делает утверждение о реальном мире. Например, генеративная модель искусственного интеллекта, утверждающая, что Барак Обама умер в 1865 году, является галлюцинацией .

хеширование

В машинном обучении — механизм группировки категориальных данных , особенно когда количество категорий велико, но количество категорий, фактически появляющихся в наборе данных, сравнительно невелико.

Например, на Земле произрастает около 73 000 видов деревьев. Вы можете представить каждую из 73 000 пород деревьев в 73 000 отдельных категориальных сегментах. В качестве альтернативы, если в наборе данных действительно присутствуют только 200 из этих пород деревьев, вы можете использовать хеширование, чтобы разделить виды деревьев примерно на 500 сегментов.

В одном ведре может содержаться несколько пород деревьев. Например, хэширование может поместить баобаб и красный клен — два генетически разных вида — в одно ведро. Несмотря на это, хеширование по-прежнему остается хорошим способом сопоставления больших категориальных наборов с выбранным количеством сегментов. Хеширование превращает категориальный признак, имеющий большое количество возможных значений, в гораздо меньшее количество значений путем группировки значений детерминированным образом.

Дополнительные сведения см. в разделе Категориальные данные: словарный запас и горячее кодирование в ускоренном курсе машинного обучения.

эвристика

Простое и быстро реализуемое решение проблемы. Например: «С помощью эвристики мы достигли точности 86 %. Когда мы перешли на глубокую нейронную сеть, точность выросла до 98 %».

скрытый слой

#основы

Слой нейронной сети между входным слоем (функции) и выходным слоем (прогнозирование). Каждый скрытый слой состоит из одного или нескольких нейронов . Например, следующая нейронная сеть содержит два скрытых слоя: первый с тремя нейронами, а второй с двумя нейронами:

Четыре слоя. Первый слой — это входной слой, содержащий два           функции. Второй слой представляет собой скрытый слой, содержащий три           нейроны. Третий слой — это скрытый слой, содержащий два           нейроны. Четвертый слой — выходной. Каждая функция           содержит три ребра, каждое из которых указывает на отдельный нейрон           во втором слое. Каждый нейрон второго слоя           содержит два ребра, каждое из которых указывает на отдельный нейрон           в третьем слое. Каждый из нейронов третьего слоя содержит           одно ребро, каждое из которых указывает на выходной слой.

Глубокая нейронная сеть содержит более одного скрытого слоя. Например, предыдущая иллюстрация представляет собой глубокую нейронную сеть, поскольку модель содержит два скрытых слоя.

Дополнительную информацию см. в разделе «Нейронные сети: узлы и скрытые слои» ускоренного курса машинного обучения.

иерархическая кластеризация

#кластеризация

Категория алгоритмов кластеризации , создающих дерево кластеров. Иерархическая кластеризация хорошо подходит для иерархических данных, таких как ботаническая таксономия. Существует два типа алгоритмов иерархической кластеризации:

  • Агломеративная кластеризация сначала присваивает каждый пример отдельному кластеру и итеративно объединяет ближайшие кластеры для создания иерархического дерева.
  • Разделительная кластеризация сначала группирует все примеры в один кластер, а затем итеративно делит кластер на иерархическое дерево.

Сравните с кластеризацией на основе центроидов .

Дополнительную информацию см. в разделе «Алгоритмы кластеризации» в курсе «Кластеризация».

восхождение на холм

Алгоритм итеративного улучшения («ходьбы в гору») модели МО до тех пор, пока модель не перестанет улучшаться («достигнет вершины холма»). Общий вид алгоритма следующий:

  1. Постройте стартовую модель.
  2. Создавайте новые модели-кандидаты, внося небольшие изменения в способы обучения или точной настройки . Это может повлечь за собой работу с немного другим обучающим набором или другими гиперпараметрами.
  3. Оцените новые модели-кандидаты и выполните одно из следующих действий:
    • Если модель-кандидат превосходит стартовую модель, то эта модель-кандидат становится новой стартовой моделью. В этом случае повторите шаги 1, 2 и 3.
    • Если ни одна модель не превосходит стартовую, значит, вы достигли вершины холма и должны прекратить итерации.

См. Руководство по настройке глубокого обучения для получения инструкций по настройке гиперпараметров. Инструкции по разработке функций см. в модулях данных ускоренного курса машинного обучения .

потеря шарнира

Семейство функций потерь для классификации, предназначенное для поиска границы решения как можно дальше от каждого обучающего примера, тем самым максимизируя разницу между примерами и границей. KSVM используют шарнирные потери (или связанную с ними функцию, например, квадратичные шарнирные потери). Для бинарной классификации функция шарнирных потерь определяется следующим образом:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

где y — истинная метка, либо -1, либо +1, а y’ — необработанный результат модели классификатора:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Следовательно, график потери шарнира в зависимости от (y * y') выглядит следующим образом:

Декартов график, состоящий из двух соединенных отрезков прямой. Первый           сегмент линии начинается в (-3, 4) и заканчивается в (1, 0). Вторая линия           сегмент начинается в (1, 0) и продолжается бесконечно с наклоном           из 0.

исторический уклон

#справедливость

Тип предвзятости , который уже существует в мире и проник в набор данных. Эти предубеждения имеют тенденцию отражать существующие культурные стереотипы, демографическое неравенство и предубеждения против определенных социальных групп.

Например, рассмотрим классификационную модель , которая прогнозирует, не выполнит ли заявитель на получение кредита дефолт по своему кредиту, которая была обучена на исторических данных о невыплатах по кредитам за 1980-е годы от местных банков в двух разных сообществах. Если бы прошлые заявители из Сообщества А имели в шесть раз больше шансов не выполнить свои обязательства по своим кредитам, чем заявители из Сообщества Б, модель могла бы усвоить историческую предвзятость, в результате чего модель с меньшей вероятностью одобрит кредиты в Сообществе А, даже если исторические условия, которые привели к этому, в этом сообществе более высокие показатели дефолта больше не актуальны.

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

отложенные данные

Примеры намеренно не используются («дотягиваются») во время обучения. Набор данных проверки и набор тестовых данных являются примерами контрольных данных. Данные о несогласии помогают оценить способность вашей модели обобщать данные, отличные от данных, на которых она обучалась. Потери в контрольном наборе обеспечивают лучшую оценку потерь в невидимом наборе данных, чем потери в обучающем наборе.

хозяин

#TensorFlow
#GoogleCloud

При обучении модели МО на чипах-ускорителях (GPU или TPU ) — это часть системы, которая контролирует оба следующих фактора:

  • Общий поток кода.
  • Извлечение и преобразование входного трубопровода.

Хост обычно работает на процессоре, а не на чипе-ускорителе; устройство манипулирует тензорами на чипах ускорителя.

человеческая оценка

#язык
#генеративныйИИ

Процесс, в котором люди оценивают качество результатов модели ML; например, двуязычные люди оценивают качество модели перевода ML. Человеческая оценка особенно полезна для оценки моделей, которые не имеют единственного правильного ответа .

Сравните с автоматической оценкой и оценкой авторами .

человек в курсе (HITL)

#генеративныйИИ

Идиома с неопределенным определением, которая может означать одно из следующих значений:

  • Политика критического или скептического рассмотрения результатов генеративного ИИ. Например, люди, написавшие этот глоссарий машинного обучения, поражены тем, на что способны большие языковые модели , но помнят об ошибках, которые допускают большие языковые модели.
  • Стратегия или система, гарантирующая, что люди помогают формировать, оценивать и совершенствовать поведение модели. Если держать человека в курсе событий, ИИ может извлечь выгоду как из машинного, так и из человеческого интеллекта. Например, система, в которой ИИ генерирует код, который затем проверяют инженеры-программисты, представляет собой систему с участием человека.

гиперпараметр

#основы

Переменные, которые вы или служба настройки гиперпараметровкорректировать во время последовательных запусков обучения модели. Например, скорость обучения является гиперпараметром. Вы можете установить скорость обучения 0,01 перед одной тренировкой. Если вы решите, что 0,01 слишком велико, возможно, вы можете установить скорость обучения на 0,003 для следующей тренировки.

Напротив, параметры — это различные веса и смещения , которые модель изучает во время обучения.

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

гиперплоскость

Граница, разделяющая пространство на два подпространства. Например, линия — это гиперплоскость в двух измерениях, а плоскость — это гиперплоскость в трех измерениях. Чаще всего в машинном обучении гиперплоскость — это граница, разделяющая многомерное пространство. Машины опорных векторов ядра используют гиперплоскости для отделения положительных классов от отрицательных классов, часто в очень многомерном пространстве.

я

иид

Сокращение от независимо и одинаково распределенных .

распознавание изображений

#изображение

Процесс, который классифицирует объект(ы), шаблон(ы) или концепцию(и) на изображении. Распознавание изображений также известно как классификация изображений .

Дополнительные сведения см. в разделе Практикум по машинному обучению: классификация изображений .

Дополнительную информацию см. в курсе ML Practicum: классификация изображений .

несбалансированный набор данных

Синоним набора данных с несбалансированным классом .

неявная предвзятость

#справедливость

Автоматическое создание ассоциации или предположения на основе моделей ума и воспоминаний. Неявная предвзятость может повлиять на следующее:

  • Как данные собираются и классифицируются.
  • Как проектируются и разрабатываются системы машинного обучения.

Например, при построении классификатора для идентификации свадебных фотографий инженер может использовать в качестве признака наличие на фотографии белого платья. Однако белые платья были обычным явлением только в определенные эпохи и в определенных культурах.

См. также предвзятость подтверждения .

вменение

Краткая форма вменения стоимости .

несовместимость показателей справедливости

#справедливость

Идея о том, что некоторые понятия справедливости несовместимы друг с другом и не могут быть удовлетворены одновременно. В результате не существует единого универсального показателя для количественной оценки справедливости, который можно было бы применить ко всем проблемам ОД.

Хотя это может показаться обескураживающим, несовместимость показателей справедливости не означает, что усилия по обеспечению справедливости бесплодны. Вместо этого предполагается, что справедливость должна определяться контекстуально для конкретной проблемы ОД с целью предотвращения вреда, специфичного для случаев ее использования.

См . «О (не)возможности справедливости» для более подробного обсуждения этой темы.

обучение в контексте

#язык
#генеративныйИИ

Синоним « подсказки с несколькими выстрелами» .

независимо и одинаково распределены (iid)

#основы

Данные, полученные из распределения, которое не изменяется и где каждое нарисованное значение не зависит от значений, которые были нарисованы ранее. Iid — это идеальный газ машинного обучения — полезная математическая конструкция, но почти никогда не встречающаяся в реальном мире. Например, распределение посетителей веб-страницы можно отслеживать за короткий промежуток времени; то есть распределение не меняется в течение этого короткого периода, и визит одного человека обычно не зависит от визита другого. Однако если вы расширите это окно времени, могут появиться сезонные различия в посещаемости веб-страницы.

См. также нестационарность .

индивидуальная справедливость

#справедливость

Метрика справедливости, которая проверяет, классифицируются ли похожие люди одинаково. Например, Академия Бробдингнагяна может захотеть обеспечить индивидуальную справедливость, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов имеют равную вероятность поступления.

Обратите внимание, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае оценки и результаты тестов), и вы можете рискнуть создать новые проблемы со справедливостью, если ваш показатель сходства упускает важную информацию (например, строгость оценки учащегося). учебный план).

См . «Справедливость через осведомленность» для более подробного обсуждения индивидуальной справедливости.

вывод

#основы

В машинном обучении — процесс прогнозирования путем применения обученной модели к неразмеченным примерам .

В статистике вывод имеет несколько иной смысл. Подробности смотрите в статье Википедии о статистических выводах .

См. «Обучение с учителем» в курсе «Введение в машинное обучение», чтобы увидеть роль вывода в системе обучения с учителем.

путь вывода

#df

В дереве решений во время вывода маршрут конкретного примера проходит от корня к другим условиям , заканчиваясь листом . Например, в следующем дереве решений более толстые стрелки показывают путь вывода для примера со следующими значениями функций:

  • х = 7
  • у = 12
  • г = -3

Путь вывода на следующей иллюстрации проходит через три состояния, прежде чем достичь листа ( Zeta ).

Дерево решений, состоящее из четырех условий и пяти листьев.           Корневое условие: (x > 0). Поскольку ответ «Да»,           Путь вывода проходит от корня к следующему условию (y > 0).           Поскольку ответ «Да», путь вывода затем идет к           следующее условие (z > 0). Поскольку ответ отрицательный, путь вывода           направляется к своему конечному узлу, который является листом (Зета).

Три толстые стрелки показывают путь вывода.

Дополнительную информацию см. в разделе « Деревья решений» курса «Леса решений».

получение информации

#df

В лесах решений — разница между энтропией узла и взвешенной (по количеству примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

  • энтропия родительского узла = 0,6
  • энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
  • энтропия другого дочернего узла с 24 соответствующими примерами = 0,1

Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Поэтому:

  • взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, информационный выигрыш составляет:

  • Прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
  • прирост информации = 0,6 - 0,14 = 0,46

Большинство раскольников стремятся создать условия , которые максимизируют получение информации.

внутригрупповая предвзятость

#справедливость

Проявление пристрастия к своей группе или собственным характеристикам. Если в число тестировщиков или оценщиков входят друзья, члены семьи или коллеги разработчика машинного обучения, то групповая предвзятость может сделать тестирование продукта или набора данных недействительным.

Внутригрупповая предвзятость — это форма предвзятости групповой атрибуции . См. также предвзятость однородности аут-группы .

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

входной генератор

Механизм загрузки данных в нейронную сеть .

Генератор входных данных можно рассматривать как компонент, отвечающий за обработку необработанных данных в тензоры, которые повторяются для создания пакетов для обучения, оценки и вывода.

входной слой

#основы

Слой нейронной сети , содержащий вектор признаков . То есть входной уровень предоставляет примеры для обучения или вывода . Например, входной слой в следующей нейронной сети состоит из двух функций:

Четыре слоя: входной слой, два скрытых слоя и выходной слой.

в установленном состоянии

#df

В дереве решенийусловие , проверяющее наличие одного элемента в наборе элементов. Например, следующее является встроенным условием:

  house-style in [tudor, colonial, cape]

Во время вывода, если значением признака стиля дома является tudor , colonial или cape , тогда это условие оценивается как Да. Если значение признака стиля дома другое (например, ranch ), то это условие оценивается как Нет.

Условия в наборе обычно приводят к более эффективным деревьям решений, чем условия, которые проверяют функции горячего кодирования .

пример

Синоним , например .

инструкция по настройке

#генеративныйИИ

Форма тонкой настройки , которая улучшает способность генеративной модели ИИ следовать инструкциям. Настройка инструкций включает в себя обучение модели с помощью серии инструкций, обычно охватывающих широкий спектр задач. Полученная в результате модель, настроенная на инструкции, затем имеет тенденцию генерировать полезные ответы на подсказки с нулевым результатом для различных задач.

Сравните и противопоставьте:

интерпретируемость

#основы

Способность объяснять или представлять рассуждения модели ML в понятных для человека терминах.

Например, большинство моделей линейной регрессии легко интерпретируются. (Вам просто нужно посмотреть обученные веса для каждой функции.) Леса решений также легко интерпретируются. Однако некоторые модели требуют сложной визуализации, чтобы их можно было интерпретировать.

Вы можете использовать Инструмент интерпретации обучения (LIT) для интерпретации моделей ML.

межэкспертное соглашение

Измерение того, как часто оценщики соглашаются при выполнении задачи. Если оценщики не согласны с этим, инструкции по выполнению заданий, возможно, придется улучшить. Также иногда называется соглашением между аннотаторами или надежностью между экспертами . См. также каппу Коэна , которая является одним из самых популярных показателей согласия между экспертами.

Дополнительные сведения см. в разделе Категориальные данные: распространенные проблемы ускоренного курса машинного обучения.

пересечение через объединение (IoU)

#изображение

Пересечение двух множеств, разделенных их объединением. В задачах машинного обучения по обнаружению изображений IoU используется для измерения точности прогнозируемой ограничивающей рамки модели по отношению к истинной ограничивающей рамке. В этом случае IoU для двух блоков представляет собой соотношение между перекрывающейся площадью и общей площадью, а его значение варьируется от 0 (нет перекрытия прогнозируемой ограничивающей рамки и основной истинной ограничительной рамки) до 1 (прогнозируемая ограничивающая рамка и основная ограничивающая рамка). -правда ограничивающая рамка имеет точно такие же координаты).

Например, на изображении ниже:

  • Предсказанная ограничивающая рамка (координаты, определяющие место расположения ночного столика на картине, по прогнозам модели) обведена фиолетовым контуром.
  • Ограничивающая рамка основной истины (координаты, определяющие место фактического расположения ночного столика на картине) обведена зеленым контуром.

Картина Ван Гога «Спальня Винсента в Арле» с двумя разными           ограничивающие коробки вокруг ночного столика рядом с кроватью. Основная истина           Ограничивающая рамка (зеленого цвета) идеально очерчивает ночной столик.           прогнозируемая ограничивающая рамка (фиолетового цвета) смещена на 50 % вниз и вправо.           ограничивающей рамки истинной истины; он охватывает правую нижнюю четверть           ночного столика, но не попадает в остальную часть стола.

Здесь пересечение ограничивающих рамок для предсказания и основной истины (внизу слева) равно 1, а объединение ограничивающих рамок для предсказания и основной истины (внизу справа) равно 7, поэтому IoU равен \(\frac{1}{7}\).

То же изображение, что и выше, но каждая ограничивающая рамка разделена на четыре части.           квадранты. Всего существует семь квадрантов, как показано в правом нижнем углу.           квадрант ограничивающей рамки основной истины и верхний левый           квадранты прогнозируемой ограничивающей рамки перекрывают друг друга. Этот           перекрывающаяся часть (выделена зеленым) представляет собой           пересечение и имеет площадь 1.То же изображение, что и выше, но каждая ограничивающая рамка разделена на четыре части.           квадранты. Всего существует семь квадрантов, как показано в правом нижнем углу.           квадрант ограничивающей рамки основной истины и верхний левый           квадранты прогнозируемой ограничивающей рамки перекрывают друг друга.           Весь интерьер окружен обеими ограничивающими рамками.           (выделено зеленым) представляет профсоюз и имеет           площадь 7.

долг

Аббревиатура для пересечения над объединением .

матрица элементов

#recsystems

В рекомендательных системах - матрица векторов внедрения, созданная путем матричной факторизации и содержащая скрытые сигналы о каждом элементе . Каждая строка матрицы элементов содержит значение одного скрытого признака для всех элементов. Например, рассмотрим систему рекомендаций фильмов. Каждый столбец в матрице элементов представляет один фильм. Скрытые сигналы могут представлять жанры или могут быть более сложными для интерпретации сигналами, которые включают сложное взаимодействие между жанром, звездами, возрастом кино или другими факторами.

Матрица элементов имеет то же количество столбцов, что и целевая матрица, которая подвергается факторизации. Например, если система рекомендаций фильмов оценивает 10 000 названий фильмов, матрица элементов будет содержать 10 000 столбцов.

предметы

#recsystems

В рекомендательной системе — объекты, которые рекомендует система. Например, видео — это товары, которые рекомендует видеомагазин, а книги — это товары, которые рекомендует книжный магазин.

итерация

#основы

Одно обновление параметров моделивесов и смещений модели — во время обучения . Размер пакета определяет, сколько примеров модель обрабатывает за одну итерацию. Например, если размер пакета равен 20, модель обрабатывает 20 примеров перед корректировкой параметров.

При обучении нейронной сети одна итерация включает в себя следующие два прохода:

  1. Прямой проход для оценки потерь в одной партии.
  2. Обратный проход ( обратное распространение ошибки ) для настройки параметров модели на основе потерь и скорости обучения.

Дж

ДЖАКС

Библиотека вычислений с массивами, объединяющая XLA (ускоренную линейную алгебру) и автоматическое дифференцирование для высокопроизводительных числовых вычислений. JAX предоставляет простой и мощный API для написания ускоренного числового кода с возможностью компоновки преобразований. JAX предоставляет такие функции, как:

  • grad (автоматическое дифференцирование)
  • jit (компиляция точно в срок)
  • vmap (автоматическая векторизация или пакетная обработка)
  • pmap (распараллеливание)

JAX — это язык для выражения и составления преобразований числового кода, аналогичный, но гораздо более широкий по объему, библиотеке Python NumPy . (Фактически, библиотека .numpy в JAX является функционально эквивалентной, но полностью переписанной версией библиотеки Python NumPy.)

JAX особенно хорошо подходит для ускорения многих задач машинного обучения за счет преобразования моделей и данных в форму, подходящую для параллелизма между чипами-ускорителями GPU и TPU .

Flax , Optax , Pax и многие другие библиотеки построены на инфраструктуре JAX.

К

Керас

Популярный API машинного обучения Python. Keras работает на нескольких платформах глубокого обучения, включая TensorFlow, где он доступен как tf.keras .

Машины опорных векторов ядра (KSVM)

Алгоритм классификации, который стремится максимизировать разницу между положительными и отрицательными классами путем сопоставления векторов входных данных с пространством более высокой размерности. Например, рассмотрим задачу классификации, в которой входной набор данных имеет сотню признаков. Чтобы максимизировать разницу между положительными и отрицательными классами, KSVM может внутренне отображать эти функции в пространство миллиона измерений. KSVM использует функцию потерь, называемую шарнирной потерей .

ключевые точки

#изображение

Координаты отдельных объектов на изображении. Например, для модели распознавания изображений , которая различает виды цветов, ключевыми точками могут быть центр каждого лепестка, стебель, тычинка и т. д.

k-кратная перекрестная проверка

Алгоритм прогнозирования способности модели обобщать новые данные. k в k-кратном значении означает количество равных групп, на которые вы делите примеры набора данных; то есть вы тренируете и тестируете свою модель k раз. Для каждого раунда обучения и тестирования отдельная группа является тестовым набором, а все оставшиеся группы становятся обучающим набором. После k раундов обучения и тестирования вы рассчитываете среднее и стандартное отклонение выбранных показателей теста.

Например, предположим, что ваш набор данных состоит из 120 примеров. Далее предположим, что вы решили установить k равным 4. Поэтому после перетасовки примеров вы делите набор данных на четыре равные группы по 30 примеров и проводите четыре раунда обучения и тестирования:

Набор данных, разбитый на четыре равные группы примеров. В первом раунде           первые три группы используются для обучения, а последняя группа           используется для тестирования. Во втором туре первые две группы и последняя           группа используется для обучения, а третья группа используется для           тестирование. В третьем туре первая группа и две последние группы разыгрываются.           используется для обучения, а вторая группа используется для тестирования.           В четвертом раунде первая группа используется для тестирования, а финальная           Для обучения используются три группы.

Например, среднеквадратическая ошибка (MSE) может быть наиболее значимым показателем для модели линейной регрессии. Таким образом, вы найдете среднее и стандартное отклонение MSE для всех четырех раундов.

k-средство

#кластеризация

Популярный алгоритм кластеризации , группирующий примеры при обучении без учителя. Алгоритм k-средних в основном делает следующее:

  • Итеративно определяет k лучших центральных точек (известных как центроиды ).
  • Назначает каждый пример ближайшему центроиду. Примеры, ближайшие к одному и тому же центроиду, принадлежат к одной группе.

Алгоритм k-средних выбирает местоположения центроидов, чтобы минимизировать совокупный квадрат расстояний от каждого примера до ближайшего к нему центроида.

Например, рассмотрим следующий график зависимости высоты собаки от ширины собаки:

Декартов график с несколькими десятками точек данных.

Если k=3, алгоритм k-средних определит три центроида. Каждому примеру присваивается ближайший к нему центроид, что дает три группы:

Тот же декартовский график, что и на предыдущей иллюстрации, за исключением           с добавлением трех центроидов.           Предыдущие точки данных сгруппированы в три отдельные группы:           каждая группа представляет точки данных, наиболее близкие к определенному           центроид.

Представьте, что производитель хочет определить идеальные размеры маленьких, средних и больших свитеров для собак. Три центроида определяют среднюю высоту и среднюю ширину каждой собаки в этом кластере. Таким образом, производителю, вероятно, следует основывать размеры свитеров на этих трех центроидах. Обратите внимание, что центроид кластера обычно не является примером в кластере.

На предыдущих иллюстрациях показаны k-средние для примеров только с двумя признаками (высотой и шириной). Обратите внимание, что k-средние могут группировать примеры по множеству функций.

k-медиана

#кластеризация

Алгоритм кластеризации, тесно связанный с k-means . Практическая разница между ними заключается в следующем:

  • В k-средних центроиды определяются путем минимизации суммы квадратов расстояния между кандидатом на центроид и каждым из его примеров.
  • В k-медиане центроиды определяются путем минимизации суммы расстояний между кандидатом на центроид и каждым из его примеров.

Обратите внимание, что определения расстояния также различаются:

  • k-means опирается на евклидово расстояние от центроида до примера. (В двух измерениях евклидово расстояние означает использование теоремы Пифагора для расчета гипотенузы.) Например, k-среднее расстояние между (2,2) и (5,-2) будет следующим:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-медиана основана на манхэттенском расстоянии от центроида до примера. Это расстояние представляет собой сумму абсолютных дельт в каждом измерении. Например, k-медианное расстояние между (2,2) и (5,-2) будет следующим:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

л

L 0 регуляризация

#основы

Тип регуляризации , который штрафует общее количество ненулевых весов в модели. Например, модель, имеющая 11 ненулевых весов, будет оштрафована больше, чем аналогичная модель, имеющая 10 ненулевых весов.

Регуляризацию L0 иногда называют регуляризацией L0-нормы .

L 1 потеря

#основы

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 1 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Абсолютное значение дельты
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Потери L1 менее чувствительны к выбросам, чем потери L2 .

Средняя абсолютная ошибка — это средняя потеря L 1 на пример.

L 1 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме абсолютных значений весов. Регуляризация L 1 помогает довести веса нерелевантных или едва релевантных функций ровно до 0 . Элемент с весом 0 фактически удаляется из модели.

В отличие от регуляризации L2 .

L 2 потеря

#основы

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 2 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Площадь дельты
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = потеря L 2

Из-за возведения в квадрат потеря L2 усиливает влияние выбросов . То есть потеря L2 сильнее реагирует на плохие прогнозы, чем потеря L1 . Например, потеря L 1 для предыдущей партии будет равна 8, а не 16. Обратите внимание, что на один выброс приходится 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используются потери L2 .

Среднеквадратическая ошибка — это средняя потеря L 2 на пример. Квадратные потери — это другое название потерь L2 .

L 2 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме квадратов весов. Регуляризация L 2 помогает приблизить веса выбросов (с высокими положительными или низкими отрицательными значениями) к 0, но не совсем к 0 . Объекты со значениями, очень близкими к 0, остаются в модели, но не сильно влияют на прогноз модели.

Регуляризация L2 всегда улучшает обобщение в линейных моделях .

В отличие от регуляризации L 1 .

этикетка

#основы

В контролируемом машинном обучении — часть примера «ответ» или «результат».

Каждый помеченный пример состоит из одного или нескольких объектов и метки. Например, в наборе данных для обнаружения спама метка, вероятно, будет либо «спам», либо «не спам». В наборе данных об осадках меткой может быть количество дождя, выпавшего за определенный период.

помеченный пример

#основы

Пример, содержащий одну или несколько функций и метку . Например, в следующей таблице показаны три помеченных примера из модели оценки дома, каждый из которых имеет три характеристики и одну метку:

Количество спален Количество ванных комнат Возраст дома Цена дома (этикетка)
3 2 15 345 000 долларов США
2 1 72 179 000 долларов США
4 2 34 392 000 долларов США

В контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .

Сравните помеченный пример с немаркированными примерами.

утечка этикетки

Недостаток дизайна модели, при котором признак является прокси-сервером метки . Например, рассмотрим модель бинарной классификации , которая предсказывает, купит ли потенциальный клиент конкретный продукт. Предположим, что одной из функций модели является логическое значение с именем SpokeToCustomerAgent . Далее предположим, что агент по работе с клиентами назначается только после того, как потенциальный клиент фактически приобрел продукт. В ходе обучения модель быстро выучит связь между SpokeToCustomerAgent и меткой.

лямбда

#основы

Синоним коэффициента регуляризации .

Лямбда — перегруженный термин. Здесь мы сосредоточимся на определении этого термина в рамках регуляризации .

LaMDA (Языковая модель для диалоговых приложений)

#язык

Модель большого языка на основе Transformer , разработанная Google, обученная на большом наборе диалоговых данных, которая может генерировать реалистичные разговорные ответы.

LaMDA: наша революционная технология общения дает обзор.

достопримечательности

#изображение

Синоним ключевых точек .

языковая модель

#язык

Модель , которая оценивает вероятность появления токена или последовательности токенов в более длинной последовательности токенов.

большая языковая модель

#язык

Как минимум, языковая модель, имеющая очень большое количество параметров . Говоря более неформально, любая языковая модель на основе Transformer , например Gemini или GPT .

скрытое пространство

#язык

Синоним встраивания пространства .

слой

#основы

Набор нейронов в нейронной сети . Три распространенных типа слоев:

Например, на следующем рисунке показана нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

В TensorFlow слои также являются функциями Python, которые принимают тензоры и параметры конфигурации в качестве входных данных и создают другие тензоры в качестве выходных данных.

API слоев (tf.layers)

#TensorFlow

API TensorFlow для построения глубокой нейронной сети как композиции слоев. Layers API позволяет создавать различные типы слоев , например:

API слоев соответствует соглашениям API слоев Keras . То есть, за исключением другого префикса, все функции в API слоев имеют те же имена и подписи, что и их аналоги в API слоев Keras.

лист

#df

Любая конечная точка в дереве решений . В отличие от условия , лист не выполняет проверку. Скорее, лист – возможное предсказание. Лист также является конечным узлом пути вывода .

Например, следующее дерево решений содержит три листа:

Дерево решений с двумя условиями, ведущими к трем листьям.

Инструмент обучения интерпретации (LIT)

Визуальный интерактивный инструмент для понимания моделей и визуализации данных.

Вы можете использовать LIT с открытым исходным кодом для интерпретации моделей или визуализации текста, изображений и табличных данных.

скорость обучения

#основы

Число с плавающей запятой, которое сообщает алгоритму градиентного спуска, насколько сильно корректировать веса и смещения на каждой итерации . Например, скорость обучения 0,3 будет корректировать веса и смещения в три раза эффективнее, чем скорость обучения 0,1.

Скорость обучения — ключевой гиперпараметр . Если вы установите слишком низкую скорость обучения, обучение займет слишком много времени. Если вы установите слишком высокую скорость обучения, градиентный спуск часто не сможет достичь сходимости .

регрессия по методу наименьших квадратов

Модель линейной регрессии, обученная путем минимизации потерь L 2 .

Расстояние Левенштейн

#язык
#метрика

Метрика расстояния редактирования , которая рассчитывает наименьшее количество операций удаления, вставки и замены, необходимых для замены одного слова на другое. Например, расстояние Левенштейна между словами «сердце» и «дротики» равно трем, потому что следующие три редактирования — это наименьшее количество изменений, позволяющих превратить одно слово в другое:

  1. сердце → дорогая (замените «h» на «d»)
  2. дорогой → дротик (удалить «е»)
  3. дротик → дартс (вставить «s»)

Обратите внимание, что предыдущая последовательность — не единственный путь из трех изменений.

линейный

#основы

Связь между двумя или более переменными, которую можно представить исключительно посредством сложения и умножения.

Участок линейной зависимости представляет собой линию.

В отличие от нелинейного .

линейная модель

#основы

Модель , которая присваивает каждому признаку один вес для прогнозирования . (Линейные модели также включают в себя смещение .) Напротив, в глубоких моделях взаимосвязь признаков с предсказаниями обычно нелинейна .

Линейные модели обычно легче обучать и более интерпретировать, чем глубокие модели. Однако глубокие модели могут изучать сложные взаимосвязи между функциями.

Линейная регрессия и логистическая регрессия — это два типа линейных моделей.

линейная регрессия

#основы

Тип модели машинного обучения, в которой выполняются оба следующих условия:

Сравните линейную регрессию с логистической регрессией . Кроме того, сравните регрессию с классификацией .

ЛИТ

Аббревиатура для Learning Interpretability Tool (LIT) , ранее известного как Language Interpretability Tool.

Магистр права

#язык
#генеративныйИИ

Аббревиатура для большой языковой модели .

LLM оценки (оценки)

#язык
#генеративныйИИ

Набор метрик и тестов для оценки производительности больших языковых моделей (LLM). На высоком уровне оценки LLM:

  • Помогите исследователям определить области, где LLM нуждается в улучшении.
  • Полезны для сравнения различных LLM и определения лучшего LLM для конкретной задачи.
  • Помогите гарантировать, что использование LLM безопасно и этически.

логистическая регрессия

#основы

Тип регрессионной модели , прогнозирующей вероятность. Модели логистической регрессии имеют следующие характеристики:

  • Ярлык категоричен . Термин логистическая регрессия обычно относится к бинарной логистической регрессии , то есть к модели, которая вычисляет вероятности для меток с двумя возможными значениями. Менее распространенный вариант — полиномиальная логистическая регрессия — вычисляет вероятности для меток с более чем двумя возможными значениями.
  • Функция потерь во время обучения — Log Loss . (Несколько единиц журнальных потерь можно разместить параллельно для меток с более чем двумя возможными значениями.)
  • Модель имеет линейную архитектуру, а не глубокую нейронную сеть. Однако оставшаяся часть этого определения также применима к глубоким моделям , которые предсказывают вероятности для категориальных меток.

Например, рассмотрим модель логистической регрессии, которая вычисляет вероятность того, что входящее электронное письмо является спамом или не является спамом. Во время вывода предположим, что модель предсказывает 0,72. Таким образом, модель оценивает:

  • Вероятность того, что письмо окажется спамом, составляет 72%.
  • Вероятность того, что письмо не окажется спамом, составляет 28%.

Модель логистической регрессии использует следующую двухэтапную архитектуру:

  1. Модель генерирует необработанный прогноз (y'), применяя линейную функцию входных объектов.
  2. Модель использует это необработанное предсказание в качестве входных данных для сигмовидной функции , которая преобразует необработанное предсказание в значение от 0 до 1, исключая.

Как и любая регрессионная модель, модель логистической регрессии предсказывает число. Однако это число обычно становится частью модели двоичной классификации следующим образом:

  • Если прогнозируемое число превышает порог классификации , модель двоичной классификации прогнозирует положительный класс.
  • Если прогнозируемое число меньше порога классификации, модель двоичной классификации прогнозирует отрицательный класс.

логиты

Вектор необработанных (ненормализованных) прогнозов, генерируемый моделью классификации, который обычно затем передается в функцию нормализации. Если модель решает задачу классификации нескольких классов , логиты обычно становятся входными данными для функции softmax . Затем функция softmax генерирует вектор (нормализованных) вероятностей с одним значением для каждого возможного класса.

Потеря журнала

#основы

Функция потерь, используемая в бинарной логистической регрессии .

логарифмические шансы

#основы

Логарифм шансов какого-либо события.

Длинная краткосрочная память (LSTM)

#seq

Тип ячейки в рекуррентной нейронной сети, используемый для обработки последовательностей данных в таких приложениях, как распознавание рукописного текста, машинный перевод и создание титров к изображениям. LSTM решают проблему исчезновения градиента , которая возникает при обучении RNN из-за длинных последовательностей данных, путем сохранения истории в состоянии внутренней памяти на основе новых входных данных и контекста из предыдущих ячеек в RNN.

ЛоРА

#язык
#генеративныйИИ

Аббревиатура для адаптивности низкого ранга .

потеря

#основы

Во время обучения модели с учителем — это показатель того, насколько далеко предсказание модели находится от ее метки .

Функция потерь вычисляет потери.

агрегатор потерь

Тип алгоритма машинного обучения , который повышает производительность модели за счет объединения прогнозов нескольких моделей и использования этих прогнозов для создания одного прогноза. В результате агрегатор потерь может уменьшить дисперсию прогнозов и повысить их точность .

кривая потерь

#основы

График потерь как функция количества обучающих итераций . На следующем графике показана типичная кривая потерь:

Декартовский график потерь в сравнении с обучающими итерациями, показывающий           быстрое падение потерь на начальных итерациях с последующим постепенным           падение, а затем пологий наклон во время последних итераций.

Кривые потерь могут помочь вам определить, когда ваша модель сходится или переоснащается .

Кривые потерь могут отображать все следующие типы потерь:

См. также кривую обобщения .

функция потерь

#основы

Во время обучения или тестирования — математическая функция, вычисляющая потери на серии примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.

Целью обучения обычно является минимизация потерь, которые возвращает функция потерь.

Существует множество различных видов функций потерь. Выберите соответствующую функцию потерь для модели, которую вы строите. Например:

поверхность потерь

График зависимости веса(ов) от потери. Градиентный спуск направлен на поиск веса(ов), для которого поверхность потерь находится на локальном минимуме.

Адаптивность низкого ранга (LoRA)

#язык
#генеративныйИИ

Эффективный по параметрам метод точной настройки , который «замораживает» предварительно обученные веса модели (таким образом, что их больше нельзя изменить), а затем вставляет в модель небольшой набор обучаемых весов. Этот набор обучаемых весов (также известный как «матрицы обновления») значительно меньше, чем базовая модель, и поэтому обучается гораздо быстрее.

LoRA предоставляет следующие преимущества:

  • Улучшает качество прогнозов модели для области, к которой применяется точная настройка.
  • Точная настройка выполняется быстрее, чем методы, требующие точной настройки всех параметров модели.
  • Снижает вычислительные затраты на вывод , позволяя одновременно обслуживать несколько специализированных моделей, использующих одну и ту же базовую модель.

LSTM

#seq

Аббревиатура для длинной кратковременной памяти .

М

машинное обучение

#основы

Программа или система, которая обучает модель на основе входных данных. Обученная модель может делать полезные прогнозы на основе новых (никогда ранее не встречавшихся) данных, полученных из того же распределения, которое использовалось для обучения модели.

Машинное обучение также относится к области исследования, связанной с этими программами или системами.

машинный перевод

#генеративныйИИ

Использование программного обеспечения (как правило, модель машинного обучения) для преобразования текста из одного человеческого языка в другой человеческий язык, например, от английского в японский.

класс большинства

#основы

Более распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, отрицательные метки представляют собой класс большинства.

Контраст с классом меньшинства .

Процесс принятия решений Маркова (MDP)

#рл

График, представляющий модель принятия решений, где решения (или действия ) принимаются для навигации по последовательности состояний в соответствии с предположением, что свойство Маркова . В обучении подкрепления эти переходы между государствами возвращают численную награду .

Марковское свойство

#рл

Свойство определенных сред , где переходы состояния полностью определяются информацией, подразумеваемой в текущем состоянии и действии агента.

Модель в масках

#язык

Языковая модель , которая прогнозирует вероятность того, что токены -кандидаты заполняют пробелы в последовательности. Например, модель маскированного языка может рассчитать вероятности для кандидата в слова для замены подчеркивания в следующем предложении:

____ в шляпе вернулся.

В литературе обычно используется строка «маска» вместо подчеркивания. Например:

«Маска» в шляпе вернулась.

Большинство современных моделей в масках языка являются двунаправленными .

matplotlib

Библиотека с открытым исходным кодом Python 2D. Matplotlib помогает вам визуализировать различные аспекты машинного обучения.

Матричная факторизация

#recsystems

В математике механизм для поиска матриц, точечный продукт которого приближается к целевой матрице.

В системах рекомендаций целевая матрица часто имеет рейтинги пользователей по элементам . Например, целевая матрица для системы рекомендаций фильма может выглядеть как -то вроде следующего, где позитивные целые числа являются рейтингами пользователей, а 0 означает, что пользователь не оценил фильм:

Касабланка Филадельфийская история Черная Пантера Чудо-женщина Криминальное чтиво
Пользователь 1 5.0 3.0 0,0 2.0 0,0
Пользователь 2 4.0 0,0 0,0 1.0 5.0
Пользователь 3 3.0 1.0 4.0 5.0 0,0

Система рекомендаций фильма направлена ​​на то, чтобы предсказать рейтинги пользователей для безрезультатных фильмов. Например, будет ли пользователь 1 нравится Black Panther ?

Одним из подходов к системам рекомендаций является использование факторизации матрицы для генерации следующих двух матриц:

Например, использование факторизации матрицы на наших трех пользователях и пять элементов может дать следующую матрицу пользователя и матрицу элементов:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Точечный продукт пользовательской матрицы и матрицы элементов дает матрицу рекомендации, которая содержит не только оригинальные рейтинги пользователей, но и прогнозы для фильмов, которых каждый пользователь не видел. Например, рассмотрим рейтинг пользователя 1 Casablanca , который был 5,0. Продукт DOT, соответствующий этой ячейке в матрице рекомендаций, должен быть около 5,0, и это:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Что еще более важно, будет ли пользователь 1, как Black Panther ? Принимая точечный продукт, соответствующий первой строке, а третий столбец дает прогнозируемый рейтинг 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Матрицкая факторизация обычно дает пользовательскую матрицу и матрицу элемента, которая вместе является значительно более компактной, чем целевая матрица.

Средняя абсолютная ошибка (MAE)

Средняя потеря на пример, когда используется потеря L 1 . Рассчитайте среднюю абсолютную ошибку следующим образом:

  1. Рассчитайте потерю L 1 для партии.
  2. Разделите потерю L 1 на количество примеров в партии.

Например, рассмотрим расчет потери L 1 на следующей партии из пяти примеров:

Фактическая стоимость примера Прогнозируемая ценность модели Потеря (разница между фактическим и предсказанным)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Таким образом, потеря 1 1 - 8, а количество примеров - 5. Следовательно, средняя абсолютная ошибка - это:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Контрастная средняя абсолютная ошибка с средней квадратной ошибкой и средней квадратной ошибкой .

Средняя средняя точность в K (map@k)

#язык
#генеративныйИИ

Статистическое среднее из всей средней точности при оценках K по набору данных проверки. Одним из использования средней средней точности в K является оценка качества рекомендаций, генерируемых системой рекомендаций .

Хотя фраза «средний средний» звучит избыточно, имя метрики подходит. В конце концов, этот показатель находит среднее значение множественной средней точности при значениях K.

Средняя квадратная ошибка (MSE)

Средняя потеря на пример, когда используется потеря L 2 . Рассчитайте среднюю квадратную ошибку следующим образом:

  1. Рассчитайте потерю L 2 для партии.
  2. Разделите потерю L 2 на количество примеров в партии.

Например, рассмотрим потерю по следующей партии из пяти примеров:

Фактическая стоимость Прогноз модели Потеря Квадратная потеря
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = потеря L 2

Следовательно, средняя квадратная ошибка:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Средняя квадратная ошибка является популярным оптимизатором обучения, особенно для линейной регрессии .

Контрастная средняя квадратная ошибка со средней абсолютной ошибкой и средней квадратной ошибкой .

Playground TensorFlow использует среднюю квадратную ошибку для расчета значений потерь.

сетка

#TensorFlow
#Googlecloud

При параллельном программировании ML термин, связанный с назначением данных и модели для чипов TPU, и определения того, как эти значения будут оскорблены или воспроизведены.

Сетка - это перегруженный термин, который может означать любое из следующего:

  • Физическая планировка чипсов TPU.
  • Абстрактная логическая конструкция для отображения данных и модели с чипами TPU.

В любом случае, сетка указана как форма .

Мета-обучение

#язык

Подмножество машинного обучения, которое обнаруживает или улучшает алгоритм обучения. Система мета-обучения также может стремиться к обучению модели для быстрого изучения новой задачи из небольшого количества данных или из-за опыта, полученного в предыдущих задачах. Алгоритмы мета-обучения обычно пытаются достичь следующего:

  • Улучшить или изучить ручные функции (такие как инициализатор или оптимизатор).
  • Будьте более эффективными и вычислимыми.
  • Улучшить обобщение.

Мета-обучение связано с несколькими выстрелами .

метрика

#TensorFlow

Статистика, о которой вы заботитесь.

Цель - это показатель, который система машинного обучения пытается оптимизировать.

Metrics API (tf.metrics)

API TensorFlow для оценки моделей. Например, tf.metrics.accuracy определяет, как часто прогнозы модели соответствуют метки.

мини-партия

#основы

Небольшая случайно выбранная часть пакета, обработанная за одну итерацию . Размер мини-партии обычно составляет от 10 до 1000 экземпляров.

Например, предположим, что весь обучающий набор (полный пакет) состоит из 1000 примеров. Далее предположим, что вы установили размер каждой мини-партии равным 20. Таким образом, каждая итерация определяет потери в случайных 20 примерах из 1000, а затем соответствующим образом корректирует веса и смещения .

Гораздо эффективнее рассчитать потери для мини-партии, чем для всех примеров в полной партии.

мини-партийный стохастический градиент спуск

Алгоритм градиентного спуска , который использует мини-партии . Другими словами, мини-партийный стохастический градиент спуск оценивает градиент на основе небольшого подмножества обучающих данных. Обычный стохастический градиент спуск использует мини-партию размера 1.

Минимакс потеря

Функция потерь для генеративных состязательных сетей , основанной на перекрестной энтропии между распределением сгенерированных данных и реальными данными.

Потеря минимакса используется в первой статье для описания генеративных состязательных сетей.

класс меньшинства

#основы

Менее распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, положительные метки представляют собой класс меньшинства.

Контраст с классом большинства .

Смесь экспертов

#язык
#генеративныйИИ

Схема повышения эффективности нейронной сети , используя только подмножество параметров (известных как эксперт ) для обработки данного входного токена или примера . Сетевая сеть маршрутирует каждый входной токен или пример для соответствующего эксперта.

Для получения подробной информации см. Любую из следующих документов:

МЛ

Аббревиатура для машинного обучения .

Мит

#язык
#изображение
#генеративныйИИ

Сокращение для мультимодальной инструкции .

Мнист

#изображение

Набор данных об общедоступном домане, составленный Lecun, Cortes и Burges, содержащий 60 000 изображений, каждое изображение, показывающее, как человек вручную написал определенную цифру от 0–9. Каждое изображение хранится как массив целых чисел 28x28, где каждое целое число представляет собой значение серого от 0 до 255, включительно.

MNIST - это канонический набор данных для машинного обучения, часто используемый для тестирования новых подходов машинного обучения. Для получения подробной информации см. Базу данных MNIST рукописных цифр .

модальность

#язык

Категория данных высокого уровня. Например, цифры, текст, изображения, видео и аудио - это пять различных модальностей.

модель

#основы

В общем, любая математическая конструкция, которая обрабатывает входные данные и возвращает выходные данные. Другими словами, модель — это набор параметров и структуры, необходимые системе для прогнозирования. В контролируемом машинном обучении модель принимает пример в качестве входных данных и выводит прогноз в качестве выходных данных. В рамках контролируемого машинного обучения модели несколько различаются. Например:

  • Модель линейной регрессии состоит из набора весов и смещения .
  • Модель нейронной сети состоит из:
    • Набор скрытых слоев , каждый из которых содержит один или несколько нейронов .
    • Веса и смещение, связанные с каждым нейроном.
  • Модель дерева решений состоит из:
    • Форма дерева; то есть шаблон, по которому соединяются условия и листья.
    • Условия и отпуск.

Вы можете сохранить, восстановить или сделать копии модели.

Машинное обучение без учителя также генерирует модели, обычно функцию, которая может сопоставить входной пример с наиболее подходящим кластером .

модель емкости

Сложность проблем, которые модель может изучить. Чем сложнее проблемы, которые может изучить модель, тем выше способность модели. Емкость модели обычно увеличивается с количеством параметров модели. Для формального определения емкости классификатора см. Dimension VC .

модель каскада

#генеративныйИИ

Система, которая выбирает идеальную модель для конкретного запроса вывода.

Представьте себе группу моделей, от очень больших (много параметров ) до гораздо меньших (гораздо меньших параметров). Очень крупные модели потребляют больше вычислительных ресурсов во время вывода , чем более мелкие модели. Тем не менее, очень крупные модели, как правило, могут вывести более сложные запросы, чем более мелкие модели. Модель каскада определяет сложность запроса вывода, а затем выбирает соответствующую модель для выполнения вывода. Основной мотивацией для модели каскада является снижение затрат на вывод путем в целом выбора более мелких моделей и выбора только более крупной модели для более сложных запросов.

Представьте, что небольшая модель работает по телефону, и большая версия этой модели работает на удаленном сервере. Хорошая модель каскада снижает стоимость и задержку, позволяя меньшей модели обрабатывать простые запросы и вызывая только удаленную модель для обработки сложных запросов.

См. Также модельный маршрутизатор .

модель параллелизма

#язык

Способ масштабирования обучения или вывода, который ставит разные части одной модели на разные устройства . Параллелизм модели позволяет слишком большим моделям, чтобы соответствовать одному устройству.

Чтобы реализовать параллелизм модели, система обычно выполняет следующее:

  1. Шарсы (делят) модель на более мелкие части.
  2. Распределяет обучение этих небольших деталей по нескольким процессорам. Каждый процессор обучает свою часть модели.
  3. Сочетает результаты, чтобы создать одну модель.

Модель параллелизма замедляет тренировки.

См. Также параллелизм данных .

модельный маршрутизатор

#генеративныйИИ

Алгоритм, который определяет идеальную модель для вывода в каскаде модели . Модельный маршрутизатор сама по себе является моделью машинного обучения, которая постепенно узнает, как выбрать лучшую модель для данного ввода. Тем не менее, модельный маршрутизатор иногда может быть более простым, не машино-обучением алгоритма.

Обучение модели

Процесс определения лучшей модели .

МЧС

#язык
#изображение
#генеративныйИИ

Сокращение для смеси экспертов .

Импульс

Сложный алгоритм спуска градиента, в котором этап обучения зависит не только от производной на нынешнем этапе, но и от производных шагов, которые немедленно предшествовали ему. Импульс включает в себя вычисление экспоненциально взвешенного скользящего скользящего градиентов с течением времени, аналогично импульсу в физике. Импульс иногда мешает обучению застрять в местных минимумах.

МТ

#генеративныйИИ

Аббревиатура для машинного перевода .

многоклассовая классификация

#основы

В контролируемом обучении — задача классификации , в которой набор данных содержит более двух классов меток. Например, метки в наборе данных Iris должны относиться к одному из следующих трех классов:

  • Ирис сетоза
  • Ирис виргинский
  • Ирис разноцветный

Модель, обученная на наборе данных Iris, которая прогнозирует тип Iris на новых примерах, выполняет многоклассовую классификацию.

Напротив, проблемы классификации, которые различают ровно два класса, представляют собой модели бинарной классификации . Например, модель электронной почты, которая прогнозирует наличие спама или его отсутствие, представляет собой модель бинарной классификации.

В задачах кластеризации многоклассовая классификация относится к более чем двум кластерам.

Многокласскую логистическую регрессию

Использование логистической регрессии в многоклассных задачах классификации .

мульти-головное самопринятие

#язык

Расширение самоубийства , которое применяет механизм самостоятельного прихода несколько раз для каждой позиции в входной последовательности.

Трансформеры ввели мульти-головное самоуничтожение.

Мультимодальная инструкция

#язык

Модель , настроенная на инструкции , которая может обрабатывать ввод за пределами текста, такой как изображения, видео и аудио.

Мультимодальная модель

#язык

Модель, входные данные и/или выходы, включают в себя более одного модальности . Например, рассмотрим модель, которая принимает как изображение, так и текстовую подпись (два модальности) в качестве функций , и выводит оценку, указывающую, насколько уместна текстовая подпись для изображения. Таким образом, входные данные этой модели являются мультимодальными, а выход - унимодальный.

многономиальная классификация

Синоним для многоклассовой классификации .

многономиальная регрессия

Синоним многоклассовой логистической регрессии .

многозадачность

Техника машинного обучения, в которой одна модель обучена выполнять несколько задач .

Многозадачные модели создаются путем обучения данных, которые подходят для каждой из различных задач. Это позволяет модели научиться делиться информацией по задачам, что помогает модели учиться более эффективно.

Модель, обученная для нескольких задач, часто имеет улучшенные способности обобщения и может быть более надежной при обработке различных типов данных.

Н

НАНА ЛУПА

Когда одно число в вашей модели становится NAN во время обучения, что заставляет многие другие или все другие числа в вашей модели в конечном итоге стать NAN.

Нэн - это аббревиатура для n n n number .

обработка естественного языка

#язык
Область обучения компьютеров для обработки того, что сказал пользователь или напечатал, используя лингвистические правила. Почти вся современная обработка естественного языка зависит от машинного обучения.

Понимание естественного языка

#язык

Подмножество обработки естественного языка , которая определяет намерения чего -то сказанного или напечатанного. Понимание естественного языка может выходить за рамки обработки естественного языка, чтобы рассмотреть сложные аспекты языка, такие как контекст, сарказм и настроения.

отрицательный класс

#основы

В бинарной классификации один класс называется положительным , а другой — отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:

  • Отрицательный класс медицинского теста может быть «не опухоль».
  • Отрицательный класс в классификаторе электронной почты может быть «не спам».

Контраст с позитивным классом .

отрицательный отбор

Синоним отбора проб кандидата .

Поиск нейронной архитектуры (NAS)

Техника для автоматического проектирования архитектуры нейронной сети . Алгоритмы NAS могут сократить количество времени и ресурсов, необходимых для обучения нейронной сети.

NAS обычно использует:

  • Пространство поиска, которое представляет собой набор возможных архитектур.
  • Функция фитнеса, которая является мерой того, насколько хорошо конкретная архитектура выполняется по данной задаче.

Алгоритмы NAS часто начинаются с небольшого набора возможных архитектур и постепенно расширяют пространство поиска, поскольку алгоритм узнает больше о том, какие архитектуры эффективны. Функция фитнеса, как правило, основана на производительности архитектуры на учебном наборе, а алгоритм обычно обучается с использованием техники подкрепления .

Алгоритмы NAS оказались эффективными в поиске высокопроизводительных архитектур для различных задач, включая классификацию изображений, классификацию текста и машинный перевод .

нейронная сеть

#основы

Модель, содержащая хотя бы один скрытый слой . Глубокая нейронная сеть — это тип нейронной сети, содержащей более одного скрытого слоя. Например, на следующей диаграмме показана глубокая нейронная сеть, содержащая два скрытых слоя.

Нейронная сеть с входным слоем, двумя скрытыми слоями и           выходной слой.

Каждый нейрон нейронной сети соединяется со всеми узлами следующего слоя. Например, на предыдущей диаграмме обратите внимание, что каждый из трех нейронов первого скрытого слоя отдельно соединяется с обоими двумя нейронами второго скрытого слоя.

Нейронные сети, реализованные на компьютерах, иногда называют искусственными нейронными сетями , чтобы отличить их от нейронных сетей, обнаруженных в мозге и других нервных системах.

Некоторые нейронные сети могут имитировать чрезвычайно сложные нелинейные отношения между различными функциями и меткой.

См. также сверточную нейронную сеть и рекуррентную нейронную сеть .

нейрон

#основы

В машинном обучении — отдельный модуль внутри скрытого слоя нейронной сети . Каждый нейрон выполняет следующее двухэтапное действие:

  1. Вычисляет взвешенную сумму входных значений, умноженную на соответствующие им веса.
  2. Передает взвешенную сумму в качестве входных данных функции активации .

Нейрон в первом скрытом слое принимает входные данные от значений признаков во входном слое . Нейрон в любом скрытом слое после первого принимает входные данные от нейронов предыдущего скрытого слоя. Например, нейрон второго скрытого слоя принимает входные данные от нейронов первого скрытого слоя.

На следующей иллюстрации показаны два нейрона и их входы.

Нейронная сеть с входным слоем, двумя скрытыми слоями и           выходной слой. Выделены два нейрона: один в первом           скрытом слое и один во втором скрытом слое. Выделенный           нейрон в первом скрытом слое получает входные данные от обоих объектов           во входном слое. Выделенный нейрон во втором скрытом слое           получает входные данные от каждого из трех нейронов первого скрытого           слой.

Нейрон в нейронной сети имитирует поведение нейронов мозга и других частей нервной системы.

N-грамм

#seq
#язык

Упорядоченная последовательность n слов. Например, по-настоящему безумно 2 грамм. Поскольку порядок актуально, безумно отличается от 2 грамма, чем по-настоящему безумно .

Н Имя (ы) для такого рода n-грамма Примеры
2 Биграм или 2 грамм пойти, ходить, пообедать, поужинать
3 Триграмма или 3 грамма ел слишком много, трех слепых мышей, звонок
4 4-грамм Прогулка в парке, пыль на ветру, мальчик съел чечевицу

Многие модели понимания естественного языка полагаются на n-граммы, чтобы предсказать следующее слово, которое пользователь напечатает или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, вероятно, предскажет, что пользователь будет следующим типом мышей .

Контрастные n-граммы с пакетом слов , которые являются неупорядоченными наборами слов.

НЛП

#язык

Аббревиатура для обработки естественного языка .

НЛУ

#язык

Сокращение для понимания естественного языка .

Узел (Дерево решений)

#df

В дереве решений , любое условие или лист .

Дерево решений с двумя условиями и тремя листьями.

узел (нейронная сеть)

#основы

Нейрон в скрытом слое .

Узел (график TensorFlow)

#TensorFlow

Операция на графике тензора.

шум

Вообще говоря, все, что скрывает сигнал в наборе данных. Шум может быть введен в данные различными способами. Например:

  • Человеческие оценщики делают ошибки в маркировке.
  • Люди и инструменты неправильно записывают или пропускают значения функций.

невоичное состояние

#df

Условие, содержащее более двух возможных результатов. Например, следующее невоичное условие содержит три возможных результата:

Условие (number_of_legs =?), Которое приводит к трем возможным           результаты. Один результат (number_of_legs = 8) приводит к листу           названный паук. Второй результат (number_of_legs = 4) приводит к           Лист по имени собака. Третий результат (number_of_legs = 2) приводит к           Лист по имени Пингвин.

нелинейный

#основы

Связь между двумя или более переменными, которую невозможно представить только с помощью сложения и умножения. Линейную связь можно представить в виде линии; нелинейная связь не может быть представлена ​​в виде линии. Например, рассмотрим две модели, каждая из которых связывает один объект с одной меткой. Модель слева линейная, а модель справа нелинейная:

Два сюжета. Один график представляет собой линию, поэтому это линейная зависимость.           Другой график представляет собой кривую, поэтому это нелинейная зависимость.

предвзятость в связи с отсутствием ответов

#справедливость

См. смещение выбора .

нестационарность

#fundamentals

Объект, значения которого изменяются в одном или нескольких измерениях, обычно во времени. Например, рассмотрим следующие примеры нестационарности:

  • Количество купальников, продаваемых в том или ином магазине, меняется в зависимости от сезона.
  • Количество конкретных фруктов, собираемых в определенном регионе, равно нулю в течение большей части года, но велико в течение короткого периода времени.
  • Из-за изменения климата среднегодовые температуры меняются.

Сравните со стационарностью .

никто не правильный ответ (Нора)

#язык
#генеративныйИИ

Подсказка имеет несколько подходящих ответов. Например, в следующей подсказке нет единого правильного ответа:

Расскажи мне шутку о слонах.

Оценка подсказок с одним правом ответом может быть сложной задачей.

НОРА

#язык
#генеративныйИИ

Аббревиатура ни за один правильный ответ .

нормализация

#основы

В широком смысле, это процесс преобразования фактического диапазона значений переменной в стандартный диапазон значений, например:

  • от -1 до +1
  • от 0 до 1
  • Z-показатели (примерно от -3 до +3)

Например, предположим, что фактический диапазон значений определенного признака составляет от 800 до 2400. В рамках разработки функций вы можете нормализовать фактические значения до стандартного диапазона, например от -1 до +1.

Нормализация — обычная задача в разработке функций . Модели обычно обучаются быстрее (и дают более точные прогнозы), когда каждый числовой признак в векторе признаков имеет примерно одинаковый диапазон.

См. Работа с численным модулем данных о сбою машинного обучения для более подробной информации. Также см. Нормализацию Z-показателя .

Обнаружение новизны

Процесс определения того, исходит ли новый (новый) пример из того же распределения, что и учебный набор . Другими словами, после обучения обучающему набору обнаружение новизны определяет, является ли новый пример (во время вывода или во время дополнительного обучения) выбросом .

Сравните с обнаружением выбросов .

числовые данные

#fundamentals

Характеристики, представленные в виде целых или вещественных чисел. Например, модель оценки дома, вероятно, будет представлять размер дома (в квадратных футах или квадратных метрах) в виде числовых данных. Представление объекта в виде числовых данных указывает на то, что значения объекта имеют математическую связь с меткой. То есть количество квадратных метров в доме, вероятно, имеет некоторую математическую связь со стоимостью дома.

Не все целочисленные данные должны быть представлены в виде числовых данных. Например, почтовые индексы в некоторых частях мира являются целыми числами; однако целочисленные почтовые индексы не следует представлять в моделях в виде числовых данных. Это связано с тем, что почтовый индекс 20000 не в два (или половину) более эффективен, чем почтовый индекс 10000. Более того, хотя разные почтовые индексы действительно коррелируют с разной стоимостью недвижимости, мы не можем предполагать, что стоимость недвижимости с почтовым индексом 20000 в два раза дороже, чем стоимость недвижимости с почтовым индексом 10000. Вместо этого почтовые индексы должны быть представлены как категориальные данные .

Числовые функции иногда называют непрерывными функциями .

Numpy

Математическая библиотека с открытым исходным кодом , которая обеспечивает эффективные операции массива в Python. Панды построены на Numpy.

О

цель

Метрика, которую ваш алгоритм пытается оптимизировать.

объективная функция

Математическая формула или метрика , которую модель стремится оптимизировать. Например, целевой функцией для линейной регрессии обычно является средняя потери в квадрате . Следовательно, при обучении модели линейной регрессии, обучение направлено на минимизацию средней потери в квадрате.

В некоторых случаях цель состоит в том, чтобы максимизировать целевую функцию. Например, если целевой функцией является точность, цель состоит в том, чтобы максимизировать точность.

Смотрите также потерю .

косое состояние

#df

В дереве решений условие , которое включает в себя более чем одну функцию . Например, если высота и ширина являются функциями, то следующее - наклонное условие:

  height > width

Контраст с выравниваемым осью состоянием .

офлайн

#fundamentals

Синоним статического .

автономный вывод

#fundamentals

Процесс, в котором модель генерирует пакет прогнозов и затем кэширует (сохраняет) эти прогнозы. Затем приложения смогут получить доступ к полученному прогнозу из кеша, а не перезапускать модель.

Например, рассмотрим модель, которая генерирует локальные прогнозы погоды (предсказания) раз в четыре часа. После каждого запуска модели система кэширует все местные прогнозы погоды. Погодные приложения извлекают прогнозы из кеша.

Автономный вывод также называется статическим выводом .

Контрастировать с онлайн -выводом .

горячее кодирование

#fundamentals

Представление категориальных данных в виде вектора, в котором:

  • Один элемент имеет значение 1.
  • Все остальные элементы установлены в 0.

Горячее кодирование обычно используется для представления строк или идентификаторов, имеющих конечный набор возможных значений. Например, предположим, что некий категориальный признак под названием Scandinavia имеет пять возможных значений:

  • "Дания"
  • "Швеция"
  • "Норвегия"
  • "Финляндия"
  • "Исландия"

Горячее кодирование может представлять каждое из пяти значений следующим образом:

страна Вектор
"Дания" 1 0 0 0 0
"Швеция" 0 1 0 0 0
"Норвегия" 0 0 1 0 0
"Финляндия" 0 0 0 1 0
"Исландия" 0 0 0 0 1

Благодаря горячему кодированию модель может изучать разные связи в зависимости от каждой из пяти стран.

Представление объекта в виде числовых данных является альтернативой горячему кодированию. К сожалению, представлять скандинавские страны численно – не лучший выбор. Например, рассмотрим следующее числовое представление:

  • «Дания» — 0
  • «Швеция» — 1
  • «Норвегия» — 2
  • «Финляндия» — 3
  • «Исландия» — 4

При числовом кодировании модель будет математически интерпретировать необработанные числа и пытаться обучаться на этих числах. Однако в Исландии на самом деле не в два раза больше (или вполовину) чего-то, чем в Норвегии, поэтому модель пришла к некоторым странным выводам.

Одно выстрел

Подход машинного обучения, часто используемый для классификации объектов, предназначенный для изучения эффективных классификаторов из одного примера обучения.

См. Также несколько выстрелов и обучение с нулевым выстрелом .

Один выстрел побуждение

#язык
#генеративныйИИ

Подсказка , которая содержит один пример, демонстрирующий, как должна отвечать большая языковая модель . Например, следующая подсказка содержит один пример, показывающий большую языковую модель, как она должна ответить на запрос.

Части одного подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Франция: евро Один пример.
Индия: Фактический запрос.

Сравните и сопоставьте один выстрел с следующими терминами:

один против всех

#fundamentals

Учитывая задачу классификации с N классами, решение состоит из N отдельных бинарных классификаторов — по одному двоичному классификатору для каждого возможного результата. Например, для модели, которая классифицирует примеры как животные, овощи или минералы, решение «один против всех» предоставит следующие три отдельных бинарных классификатора:

  • животное против не животного
  • овощ или не овощ
  • минеральное или не минеральное

онлайн

#fundamentals

Синоним динамического .

онлайн-вывод

#основы

Генерация прогнозов по запросу. Например, предположим, что приложение передает входные данные модели и выдает запрос на прогноз. Система, использующая онлайн-вывод, отвечает на запрос, запуская модель (и возвращая прогноз в приложение).

Сравните с офлайн-выводом .

Операция (OP)

#TensorFlow

В TensorFlow любая процедура, которая создает, манипулирует или разрушает тензор . Например, матрица умножается - это операция, которая принимает два тензора в качестве входного и генерирует один тензор в качестве выходного сигнала.

Оптекс

Библиотека обработки и оптимизации градиента для JAX . Optax облегчает исследование, предоставляя строительные блоки, которые могут быть перечислены в пользовательских способах оптимизации параметрических моделей, таких как глубокие нейронные сети. Другие цели включают:

  • Предоставление читаемой, хорошо проверенной, эффективной реализации основных компонентов.
  • Повышение производительности, позволяя комбинировать низкоуровневые ингредиенты в пользовательские оптимизаторы (или другие компоненты обработки градиентов).
  • Ускорение внедрения новых идей, позволяя кому -либо внести свой вклад.

оптимизатор

Конкретная реализация алгоритма градиентного происхождения . Популярные оптимизаторы включают:

  • Адаград , который означает адаптивный градиентный спуск.
  • Адам, который означает адаптивную с импульсом.

предвзятость в отношении однородности чужой группы

#справедливость

Тенденция рассматривать членов чужой группы более похожими, чем членов своей группы, при сравнении взглядов, ценностей, личностных качеств и других характеристик. Под группой подразумеваются люди, с которыми вы регулярно общаетесь; К аут-группе относятся люди, с которыми вы не общаетесь регулярно. Если вы создаете набор данных, попросив людей предоставить атрибуты чужих групп, эти атрибуты могут быть менее детальными и более стереотипными, чем атрибуты, которые участники перечисляют для людей из своей группы.

Например, лилипуты могут очень подробно описывать дома других лилипутов, ссылаясь на небольшие различия в архитектурных стилях, окнах, дверях и размерах. Однако те же лилипуты могли бы просто заявить, что все бробдингнегцы живут в одинаковых домах.

Предвзятость однородности аутгруппы — это форма предвзятости групповой атрибуции .

См. также внутригрупповую предвзятость .

обнаружение выбросов

Процесс выявления выбросов в учебном наборе .

Контраст с обнаружением новизны .

выбросы

Значения отдаленные от большинства других значений. В машинном обучении любое из следующих выбросов:

  • Входные данные, значения которых более чем примерно 3 стандартных отклонений от среднего.
  • Веса с высокими абсолютными значениями.
  • Прогнозируемые значения относительно далеко от фактических значений.

Например, предположим, что widget-price является особенностью определенной модели. Предположим, что средняя widget-price составляет 7 евро со стандартным отклонением 1 евро. Таким образом, примеры, содержащие widget-price 12 евро или 2 евро, будут рассматриваться для выбросов, поскольку каждая из этих цен является пятью стандартными отклонением от среднего значения.

Выбросы часто вызваны опечатками или другими входными ошибками. В других случаях выбросы не ошибки; В конце концов, значения пять стандартных отклонений от среднего значения редки, но едва ли невозможно.

Выбросы часто вызывают проблемы в модельном обучении. Обрезка - это один из способов управления выбросами.

Оценка вне мега (оценка OOB)

#df

Механизм оценки качества решения решения путем проверки каждого дерева решений на примеры, не используемые во время обучения этого дерева решений. Например, на следующей диаграмме обратите внимание, что система обучает каждое дерево решений примерно на две трети примеров, а затем оценивает оставшуюся треть примеров.

Решение Лес, состоящее из трех деревьев решений.           Одно дерево решений тренируется на две трети примеров           а затем использует оставшуюся треть для оценки OOB.           Второе дерево решений тренируется на разные две трети           примеров, чем предыдущее дерево решений, а затем           использует другую треть для оценки OOB, чем           Предыдущее дерево решений.

Оценка вне мега является вычислительно эффективным и консервативным приближением механизма перекрестной проверки . При перекрестной проверке одна модель обучается для каждого раунда перекрестной проверки (например, 10 моделей обучаются в 10-кратной перекрестной проверке). При оценке OOB обучается одна модель. Поскольку пакетный мешок удерживает некоторые данные с каждого дерева во время обучения, оценка OOB может использовать эти данные для приблизительного перекрестного проверки.

выходной слой

#fundamentals

«Последний» слой нейронной сети. Выходной слой содержит прогноз.

На следующем рисунке показана небольшая глубокая нейронная сеть с входным слоем, двумя скрытыми слоями и выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           Скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

переоснащение

#fundamentals

Создание модели , которая настолько точно соответствует обучающим данным , что модель не может делать правильные прогнозы на новых данных.

Регуляризация может уменьшить переобучение. Обучение на большом и разнообразном тренировочном наборе также может уменьшить переобучение.

перегрев

Повторное использование примеров класса меньшинства в классе-имбалансированном наборе данных , чтобы создать более сбалансированный обучающий набор .

Например, рассмотрим проблему бинарной классификации , в которой отношение класса большинства к классу меньшинства составляет 5000: 1. Если набор данных содержит миллион примеров, то набор данных содержит только около 200 примеров класса меньшинства, что может быть слишком мало примеров для эффективного обучения. Чтобы преодолеть этот недостаток, вы можете переоборудовать (повторно использовать) эти 200 примеров несколько раз, возможно, давая достаточные примеры для полезного обучения.

Вы должны быть осторожны с переосмыслением при перевозке.

Контраст с недостаточной дискретией .

П

упакованные данные

Подход к более эффективному хранению данных.

Упакованные данные хранят данные либо с помощью сжатого формата, либо другим способом, который позволяет к ним более эффективно доступно. Упакованные данные сводят к минимуму объем памяти и вычислений, необходимых для доступа к ней, что приводит к более быстрому обучению и более эффективному выводу модели.

Упакованные данные часто используются с другими методами, такими как увеличение данных и регуляризация , что еще больше улучшает производительность моделей .

панды

#fundamentals

API анализа данных, ориентированный на столбцы, построенный на основе numpy . Многие платформы машинного обучения, включая TensorFlow, поддерживают структуры данных pandas в качестве входных данных. Подробности смотрите в документации pandas .

параметр

#fundamentals

Веса и отклонения , которые модель изучает во время обучения . Например, в модели линейной регрессии параметры состоят из смещения ( b ) и всех весов ( w 1 , w 2 и т. д.) в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Напротив, гиперпараметры — это значения, которые вы (или служба настройки гиперпараметров) предоставляете модели. Например, скорость обучения является гиперпараметром.

Параметр-эффективная настройка

#язык
#генеративныйИИ

Набор методов для тонкой настройки большой предварительно обученной языковой модели (PLM) более эффективно, чем полная тонкая настройка . Параметр-эффективная настройка обычно тонко настратывает гораздо меньше параметров , чем полная точная настройка, но обычно производит большую языковую модель , которая также работает (или почти также) как большая языковая модель, построенная из полной точной настройки.

Сравните и сопоставьте настройку параметров с:

Параметр-эффективная настройка также известна как эффективная настройка параметров .

Сервер параметров (PS)

#TensorFlow

Работа, которая отслеживает параметры модели в распределенной настройке.

Обновление параметров

Работа регулировки параметров модели во время обучения, как правило, в пределах одной итерации градиентного спуска .

частичная производная

Производное, в котором все, кроме одной из переменных, считается постоянной. Например, частичная производная F (x, y) по отношению к x является производной F, рассматриваемой как функция только x (то есть сохраняя y постоянную). Частичная производная F в отношении X фокусируется только на том, как X меняется и игнорирует все другие переменные в уравнении.

предвзятость участия

#справедливость

Синоним систематической ошибки в связи с отсутствием ответов. См. смещение выбора .

Стратегия разделения

Алгоритм, с помощью которого переменные делятся на серверы параметров .

пройти через k (pass@k)

Метрика для определения качества кода (например, Python), который генерирует большая языковая модель . В частности, Pass at K сообщает вам о вероятности, что по крайней мере один сгенерированный блок кода из K, сгенерированных блоков кода, пройдет все его модульные тесты.

Большие языковые модели часто изо всех сил пытаются создать хороший код для сложных задач программирования. Инженеры -программисты адаптируются к этой проблеме, побуждая большую языковую модель для создания нескольких ( k ) решений для одной и той же проблемы. Затем инженеры -программисты проверяют каждое из решений против модульных тестов. Расчет прохода в K зависит от результата модульных тестов:

  • Если одно или несколько из этих решений проходят модульный тест, то LLM выполняет эту задачу генерации кода.
  • Если ни одно из решений проходит модульный тест, то LLM не выполняет эту задачу генерации кода.

Формула для прохода в K заключается в следующем:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

В целом, более высокие значения k производят более высокий проход при оценках K; Тем не менее, более высокие значения K требуют более крупной языковой модели и ресурсов модульного тестирования.

Пакс

Структура программирования, предназначенная для обучения крупномасштабных моделей нейронной сети, настолько больших, что они охватывают несколько ломтиков чипов или стручков с акселератором TPU .

Pax построен на льна , который построен на JAX .

Диаграмма, указывающая позицию Пакса в программном стеке.           PAX построен на вершине JAX. Сам Пакс состоит из трех           слои. Нижний слой содержит тензорстор и лен.           Средний слой содержит Optax и FlaxFormer. Вершина           слой содержит библиотеку моделирования Praxis. Скрипкая построена           На вершине Пакса.

PERCEPTRON

Система (либо аппаратное или программное обеспечение), которая принимает одно или несколько входных значений, выполняет функцию на взвешенную сумму входов и вычисляет одно выходное значение. В машинном обучении функция обычно нелинейная, такая как Relu , Sigmoid или Tanh . Например, следующий персептрон полагается на сигмоидную функцию для обработки трех входных значений:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

На следующем иллюстрации, Perceptron берет три входа, каждый из которых сам модифицируется весом перед входом в Perceptron:

Персептрон, который принимает 3 входа, каждый из которых умножен на отдельные           вес. Perceptron выводит одно значение.

Perceptrons являются нейронами в нейронных сетях .

производительность

Перегруженный термин со следующими значениями:

  • Стандартное значение в разработке программного обеспечения. А именно: как быстро (или эффективно) работает эта часть программного обеспечения?
  • Значение в машинном обучении. Здесь производительность отвечает на следующий вопрос: насколько правильно эта модель ? То есть, насколько хороши прогнозы модели?

Переменные импорты переменной

#df

Тип важности переменной , который оценивает увеличение ошибки прогнозирования модели после пересечения значений функции. Важность переменной перестановки-это независимая модель метрика.

недоумение

Одна мера того, насколько хорошо модель выполняет свою задачу. Например, предположим, что ваша задача состоит в том, чтобы прочитать первые несколько букв слова, которые пользователь печатает на телефонной клавиатуре, и предложить список возможных слов завершения. Смущение, P, для этой задачи примерно количество предположений, которые вы должны предложить, чтобы ваш список содержал фактическое слово, которое пользователь пытается напечатать.

Недоумение связано с перекрестной энтропией следующим образом:

$$P= 2^{-\text{cross entropy}}$$

трубопровод

Инфраструктура, окружающая алгоритм машинного обучения. Трубопровод включает в себя сбор данных, размещение данных в обучающие файлы данных, обучение одной или нескольких моделей и экспорт моделей в производство.

трубопровод

#язык

Форма параллелизма модели , в которой обработка модели разделена на последовательные этапы, и каждый этап выполняется на другом устройстве. В то время как этап обрабатывает одну партию, предыдущая стадия может работать на следующей партии.

Смотрите также поэтапное обучение .

PJIT

Функция JAX , которая расщепляет код для выполнения нескольких чипов акселератора . Пользователь передает функцию PJIT, которая возвращает функцию, которая имеет эквивалентную семантику, но составлена ​​в вычисление XLA , которое работает на нескольких устройствах (таких как графические процессоры или ядра TPU ).

PJIT позволяет пользователям разыгрывать вычисления, не переписывая их, используя серию SPMD .

По состоянию на март 2023 года pjit был объединен с jit . См . Распределенные массивы и автоматическую параллелизацию для более подробной информации.

ПЛМ

#язык
#генеративныйИИ

Аббревиатура для предварительно обученной языковой модели .

ПМАП

Функция JAX , которая выполняет копии входной функции на нескольких базовых аппаратных устройствах (процессоров, графических процессоров или TPU ), с различными входными значениями. PMAP полагается на SPMD .

политика

#рл

В обучении подкрепления вероятностное отображение агента из состояний на действия .

объединение

#изображение

Снижение матрицы (или матрицы), созданной более ранним сверточным слоем, до меньшей матрицы. Объединение обычно включает в себя либо максимальное, либо среднее значение по всей объединенной зоне. Например, предположим, что у нас есть следующая матрица 3x3:

Матрица 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Операция объединения, как и сверточная операция, делит эту матрицу на ломтики, а затем выдвигает эту сверточную операцию на шаги . Например, предположим, что операция объединения делит сверточную матрицу на срезы 2x2 с шагом 1x1. Как показывает следующая диаграмма, проходят четыре операции по объединению. Представьте, что каждая операция объединения выбирает максимальное значение четырех в этом среза:

Входная матрица составляет 3x3 со значениями: [[5,3,1], [8,2,5], [9,4,3]].           Подмазка в верхней левой 2X2 входной матрицы составляет [[5,3], [8,2]], поэтому           Верхняя левая операция объединения дает значение 8 (которое           максимум 5, 3, 8 и 2). Верхняя правая подставка 2x2 ввода           Матрица равен [[3,1], [2,5]], поэтому в высшей степени           Значение 5. Подмазка нижнего левого 2x2 входной матрицы           [[8,2], [9,4]], поэтому операция по левому левому пулу дает значение           9. Подводка в правом нижнем 2x2 входной матрицы           [[2,5], [4,3]], так что операция по праву правой в правом праве дает значение           5. В итоге операция объединения дает матрицу 2x2           [[8,5], [9,5]].

Объединение помогает обеспечить трансляционную инвариантность в входной матрице.

Объединение для применений зрения известно более формально как пространственное объединение . Приложения временных рядов обычно называют объединение как временное объединение . Менее формально, объединение часто называют подчинкой или снижением .

позиционное кодирование

#язык

Метод добавления информации о положении токена в последовательности в встраивание токена. Модели трансформаторов используют позиционное кодирование, чтобы лучше понять взаимосвязь между различными частями последовательности.

В общей реализации позиционного кодирования используется синусоидальная функция. (В частности, частота и амплитуда синусоидальной функции определяются положением токена в последовательности.) Этот метод позволяет модели трансформатора научиться заниматься различными частями последовательности на основе их позиции.

позитивный класс

#fundamentals

Класс, для которого вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Положительным классом в классификаторе электронной почты может быть «спам».

Сравните с отрицательным классом .

пост-обработка

#справедливость
#fundamentals

Корректировка вывода модели после ее запуска. Постобработка может использоваться для обеспечения соблюдения ограничений справедливости без изменения самих моделей.

Например, можно применить постобработку к двоичному классификатору, установив порог классификации таким образом, чтобы для некоторого атрибута сохранялось равенство возможностей , проверяя, что истинный положительный уровень одинаков для всех значений этого атрибута.

Пост обученная модель

#язык
#изображение
#генеративныйИИ

Свободно определенный термин, который обычно относится к предварительно обученной модели , которая прошла через некоторую постобработку, такую ​​как одно или несколько из следующих:

PR AUC (область под кривой PR)

Площадь под интерполированной кривой точно-рецизионной , полученной путем построения (отзыв, точность) точки для различных значений порога классификации .

Практика

Ядро, высокопроизводительная библиотека ML Pax . Praxis часто называют «библиотекой слоев».

Praxis содержит не только определения для класса слоя, но и большинство его вспомогательных компонентов, включая:

Praxis предоставляет определения для класса модели.

точность

Метрика для классификационных моделей , которая отвечает на следующий вопрос:

Когда модель предсказывала положительный класс , какой процент прогнозов был правильным?

Вот формула:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

  • Истинный положительный означает, что модель правильно предсказала положительный класс.
  • Неверно положительный означает, что модель ошибочно предсказала положительный класс.

Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных прогнозов:

  • 150 были настоящими положительными.
  • 50 были ложными положительными.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Сравните с точностью и отзывом .

См. Классификацию: Точность, отзыв, точность и связанные с ними метрики для получения дополнительной информации.

точность при k (precision@k)

#язык

Метрика для оценки рангового (упорядоченного) списка элементов. Точность в K идентифицирует долю первых k элементов в этом списке, которые являются «актуальными». То есть:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью расчета.

Актуальность часто субъективна; Даже опытные оценщики человека часто не согласны с тем, какие предметы актуальны.

Сравните с:

Кривая точности

Кривая точности в зависимости от воспоминания на разных порогах классификации .

прогноз

#fundamentals

Выход модели. Например:

  • Прогноз модели бинарной классификации — это либо положительный класс, либо отрицательный класс.
  • Прогноз модели многоклассовой классификации представляет собой один класс.
  • Прогноз модели линейной регрессии — это число.

предвзятость прогнозирования

Значение, указывающее, насколько далеко друг от друга среднее показатели , от среднего значения метки в наборе данных.

Не путать с термином смещения в моделях машинного обучения или с предвзятостью в этике и справедливости .

прогнозирующий Ml

Любая стандартная ("классическая") система машинного обучения .

Термин «прогнозирующий ML не имеет формального определения». Скорее, термин отличает категорию систем ML, не основанные на генеративном ИИ .

прогнозируемая четность

#справедливость

Метрика справедливости , которая проверяет, эквивалентны ли для данного классификатора показатели точности для рассматриваемых подгрупп.

Например, модель, предсказывающая поступление в колледж, будет удовлетворять прогнозному паритету национальности, если ее уровень точности одинаков для лилипутов и бробдингнегов.

Прогнозируемый паритет иногда также называют прогнозирующим паритетом ставок .

См. «Объяснение определений справедливости» (раздел 3.2.1) для более подробного обсуждения прогнозируемой четности.

прогнозируемый паритет ставок

#справедливость

Другое название прогнозирующей четности .

предварительная обработка

#справедливость
Обработка данных перед их использованием для обучения модели. Предварительная обработка может быть такой же простой, как удаление слов из корпуса английского текста, которых нет в английском словаре, или может быть такой же сложной, как повторное выражение точек данных таким образом, чтобы исключить как можно больше атрибутов, которые коррелируют с конфиденциальными атрибутами. . Предварительная обработка может помочь удовлетворить ограничения справедливости .

Предварительно обученная модель

#язык
#изображение
#генеративныйИИ

Как правило, модель, которая уже была обучена . Этот термин также может означать ранее обученный вектор встраивания .

Термин предварительно обученный языковой модель обычно относится к уже обученной большой языковой модели .

предварительное обучение

#язык
#изображение
#генеративныйИИ

Первоначальная подготовка модели на большом наборе данных. Некоторые предварительно обученные модели являются неуклюжими гигантами и обычно должны быть уточнены посредством дополнительного обучения. Например, эксперты ML могут предварительно обучить большую языковую модель в обширном текстовом наборе данных, например, все английские страницы в Википедии. После предварительного обучения полученная модель может быть дополнительно уточнена с помощью любого из следующих методов:

предварительное убеждение

Что вы верите в данные, прежде чем начать обучение по ним. Например, регуляризация L 2 зависит от предварительного убеждения, что веса должны быть небольшими и обычно распределенными около нуля.

модель вероятностной регрессии

Регрессионная модель , которая использует не только веса для каждой функции , но и неопределенность этих весов. Вероятностная регрессионная модель генерирует прогноз и неопределенность этого прогноза. Например, модель вероятностной регрессии может дать прогноз 325 со стандартным отклонением 12. Для получения дополнительной информации о моделях вероятностной регрессии см. В этом Colab на tensorflow.org .

Функция плотности вероятности

Функция, которая идентифицирует частоту образцов данных, имеющих именно определенное значение. Когда значения набора данных являются непрерывными числами с плавающей точкой, точные совпадения редко встречаются. Однако интеграция функции плотности вероятности от значения x до значения y дает ожидаемую частоту образцов данных между x и y .

Например, рассмотрим нормальное распределение, составляющее среднее значение 200 и стандартное отклонение 30. Чтобы определить ожидаемую частоту образцов данных, падающих в диапазоне 211,4 до 218,7, вы можете интегрировать функцию плотности вероятности для нормального распределения от 211,4 до 218,7 .

быстрый

#язык
#генеративныйИИ

Любой текст, введенный в качестве ввода в большую языковую модель, чтобы поддерживать модель, чтобы вести себя определенным образом. Подсказки могут быть такими же короткими, как фраза или произвольно длинные (например, весь текст романа). Подсказки делятся на несколько категорий, в том числе показанные в следующей таблице:

Быстрое категория Пример Примечания
Вопрос Как быстро может летать голубь?
Инструкция Напишите забавное стихотворение об арбитраже. Подсказка, которая просит большую языковую модель что -то сделать .
Пример Перевести код разметки в HTML. Например:
Markdown: * Список элемента
Html: <ul> <li> Список элемента </li> </ul>
Первым предложением в этом примере подсказка является инструкция. Остальная часть подсказки является примером.
Роль Объясните, почему градиент спуск используется в обучении машинного обучения для доктора философии. Первая часть предложения - это инструкция; Фраза «до доктора философии» - это роль.
Частичный вход для модели для завершения Премьер -министр Соединенного Королевства живет в Частичная подсказка ввода может либо резко заканчиваться (как это делает этот пример), либо заканчиваться подчеркиванием.

Генеративная модель искусственного интеллекта может ответить на подсказку с текстом, кодом, изображениями, встраиванием , видео ... почти чем угодно.

быстрое обучение

#язык
#генеративныйИИ

Возможность определенных моделей , которые позволяют им адаптировать свое поведение в ответ на произвольный ввод текста ( подсказка ). В типичной парадигме обучения на основе быстрого обучения крупная языковая модель реагирует на подсказку, генерируя текст. Например, предположим, что пользователь входит в следующую подсказку:

Суммируйте третий закон Ньютона.

A model capable of prompt-based learning isn't specifically trained to answer the previous prompt. Rather, the model "knows" a lot of facts about physics, a lot about general language rules, and a lot about what constitutes generally useful answers. That knowledge is sufficient to provide a (hopefully) useful answer. Additional human feedback ("That answer was too complicated." or "What's a reaction?") enables some prompt-based learning systems to gradually improve the usefulness of their answers.

prompt design

#язык
#генеративныйИИ

Synonym for prompt engineering .

оперативное проектирование

#язык
#генеративныйИИ

The art of creating prompts that elicit the desired responses from a large language model . Humans perform prompt engineering. Writing well-structured prompts is an essential part of ensuring useful responses from a large language model. Prompt engineering depends on many factors, including:

  • The dataset used to pre-train and possibly fine-tune the large language model.
  • The temperature and other decoding parameters that the model uses to generate responses.

See Introduction to prompt design for more details on writing helpful prompts.

Prompt design is a synonym for prompt engineering.

быстрое настройка

#язык
#генеративныйИИ

A parameter efficient tuning mechanism that learns a "prefix" that the system prepends to the actual prompt .

One variation of prompt tuning—sometimes called prefix tuning —is to prepend the prefix at every layer . In contrast, most prompt tuning only adds a prefix to the input layer .

прокси (чувствительные атрибуты)

#справедливость
Атрибут, используемый в качестве замены конфиденциального атрибута . For example, an individual's postal code might be used as a proxy for their income, race, or ethnicity.

прокси-метки

#fundamentals

Данные, используемые для аппроксимации меток, не доступны напрямую в наборе данных.

Например, предположим, что вам необходимо обучить модель прогнозированию уровня стресса сотрудников. Ваш набор данных содержит множество прогнозных функций, но не содержит метки с названием «уровень стресса». Не испугавшись, вы выбираете «несчастные случаи на рабочем месте» в качестве индикатора уровня стресса. Ведь сотрудники, находящиеся в состоянии сильного стресса, попадают в больше несчастных случаев, чем спокойные сотрудники. Or do they? Возможно, количество несчастных случаев на производстве на самом деле растет и уменьшается по нескольким причинам.

В качестве второго примера предположим, что вы хотите , идет ли дождь? быть логической меткой для вашего набора данных, но ваш набор данных не содержит данных о дожде. Если имеются фотографии, вы можете использовать изображения людей с зонтиками в качестве косвенного индикатора того, идет ли дождь? Это хороший прокси-лейбл? Возможно, но люди в некоторых культурах с большей вероятностью будут носить с собой зонтики для защиты от солнца, чем от дождя.

Прокси-метки часто несовершенны. По возможности выбирайте настоящие метки, а не прокси-метки. Тем не менее, когда фактическая метка отсутствует, выбирайте прокси-метку очень осторожно, выбирая наименее ужасного кандидата на прокси-метку.

чистая функция

A function whose outputs are based only on its inputs, and that has no side effects. Specifically, a pure function doesn't use or change any global state, such as the contents of a file or the value of a variable outside the function.

Pure functions can be used to create thread-safe code, which is beneficial when sharding model code across multiple accelerator chips .

JAX's function transformation methods require that the input functions are pure functions.

вопрос

Q-function

#рл

In reinforcement learning , the function that predicts the expected return from taking an action in a state and then following a given policy .

Q-function is also known as state-action value function .

Q-обучение

#рл

In reinforcement learning , an algorithm that allows an agent to learn the optimal Q-function of a Markov decision process by applying the Bellman equation . The Markov decision process models an environment .

quantile

Each bucket in quantile bucketing .

quantile bucketing

Distributing a feature's values into buckets so that each bucket contains the same (or almost the same) number of examples. For example, the following figure divides 44 points into 4 buckets, each of which contains 11 points. In order for each bucket in the figure to contain the same number of points, some buckets span a different width of x-values.

44 data points divided into 4 buckets of 11 points each.
          Although each bucket contains the same number of data points,
          some buckets contain a wider range of feature values than other
          buckets.

quantization

Overloaded term that could be used in any of the following ways:

  • Implementing quantile bucketing on a particular feature .
  • Transforming data into zeroes and ones for quicker storing, training, and inferring. As Boolean data is more robust to noise and errors than other formats, quantization can improve model correctness. Quantization techniques include rounding, truncating, and binning .
  • Reducing the number of bits used to store a model's parameters . For example, suppose a model's parameters are stored as 32-bit floating-point numbers. Quantization converts those parameters from 32 bits down to 4, 8, or 16 bits. Quantization reduces the following:

    • Compute, memory, disk, and network usage
    • Time to infer a predication
    • Потребляемая мощность

    However, quantization sometimes decreases the correctness of a model's predictions.

очередь

#TensorFlow

A TensorFlow Operation that implements a queue data structure. Typically used in I/O.

Р

RAG

#fundamentals

Аббревиатура для генерации с расширенным поиском .

random forest

#df

An ensemble of decision trees in which each decision tree is trained with a specific random noise, such as bagging .

Random forests are a type of decision forest .

random policy

#рл

In reinforcement learning , a policy that chooses an action at random.

rank (ordinality)

The ordinal position of a class in a machine learning problem that categorizes classes from highest to lowest. For example, a behavior ranking system could rank a dog's rewards from highest (a steak) to lowest (wilted kale).

rank (Tensor)

#TensorFlow

The number of dimensions in a Tensor . For example, a scalar has rank 0, a vector has rank 1, and a matrix has rank 2.

Not to be confused with rank (ordinality) .

рейтинг

A type of supervised learning whose objective is to order a list of items.

оценщик

#fundamentals

Человек, который дает ярлыки для примеров . «Аннотатор» — другое название оценщика.

отзывать

A metric for classification models that answers the following question:

When ground truth was the positive class , what percentage of predictions did the model correctly identify as the positive class?

Вот формула:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

  • true positive means the model correctly predicted the positive class.
  • false negative means that the model mistakenly predicted the negative class .

For instance, suppose your model made 200 predictions on examples for which ground truth was the positive class. Of these 200 predictions:

  • 180 were true positives.
  • 20 were false negatives.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

See Classification: Accuracy, recall, precision and related metrics for more information.

recall at k (recall@k)

#язык

A metric for evaluating systems that output a ranked (ordered) list of items. Recall at k identifies the fraction of relevant items in the first k items in that list out of the total number of relevant items returned.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrast with precision at k .

система рекомендаций

#recsystems

A system that selects for each user a relatively small set of desirable items from a large corpus. For example, a video recommendation system might recommend two videos from a corpus of 100,000 videos, selecting Casablanca and The Philadelphia Story for one user, and Wonder Woman and Black Panther for another. A video recommendation system might base its recommendations on factors such as:

  • Movies that similar users have rated or watched.
  • Genre, directors, actors, target demographic...

Выпрямленный линейный блок (ReLU)

#fundamentals

Функция активации со следующим поведением:

  • Если вход отрицательный или нулевой, то выход равен 0.
  • Если вход положительный, то выход равен входу.

Например:

  • Если на входе -3, то на выходе 0.
  • Если на входе +3, то на выходе 3,0.

Вот сюжет ReLU:

Декартов график из двух линий. В первой строке есть константа           значение y, равное 0, вдоль оси X от -бесконечности,0 до 0,-0.           Вторая строка начинается с 0,0. Эта линия имеет наклон +1, поэтому           он работает от 0,0 до +бесконечности,+бесконечности.

ReLU is a very popular activation function. Несмотря на простоту поведения, ReLU по-прежнему позволяет нейронной сети изучать нелинейные связи между объектами и меткой .

рекуррентная нейронная сеть

#seq

A neural network that is intentionally run multiple times, where parts of each run feed into the next run. Specifically, hidden layers from the previous run provide part of the input to the same hidden layer in the next run. Recurrent neural networks are particularly useful for evaluating sequences, so that the hidden layers can learn from previous runs of the neural network on earlier parts of the sequence.

For example, the following figure shows a recurrent neural network that runs four times. Notice that the values learned in the hidden layers from the first run become part of the input to the same hidden layers in the second run. Similarly, the values learned in the hidden layer on the second run become part of the input to the same hidden layer in the third run. In this way, the recurrent neural network gradually trains and predicts the meaning of the entire sequence rather than just the meaning of individual words.

An RNN that runs four times to process four input words.

reference text

#язык
#генеративныйИИ

An expert's response to a prompt . For example, given the following prompt:

Translate the question "What is your name?" from English to French.

An expert's response might be:

Comment vous appelez-vous?

Various metrics (such as ROUGE ) measure the degree to which the reference text matches an ML model's generated text .

регрессионная модель

#fundamentals

Неформально — модель, генерирующая численный прогноз. (Напротив, модель классификации генерирует прогноз класса.) Например, все следующие модели регрессии:

  • Модель, которая прогнозирует стоимость определенного дома в евро, например 423 000.
  • Модель, которая предсказывает ожидаемую продолжительность жизни определенного дерева в годах, например 23,2.
  • Модель, которая прогнозирует количество осадков в дюймах, которые выпадут в определенном городе в течение следующих шести часов, например 0,18.

Два распространенных типа регрессионных моделей:

  • Линейная регрессия : находит линию, которая лучше всего соответствует значениям меток объектам.
  • Логистическая регрессия , которая генерирует вероятность от 0,0 до 1,0, которую система обычно затем сопоставляет с прогнозом класса.

Не каждая модель, которая выдает числовые прогнозы, является регрессионной моделью. В некоторых случаях числовое предсказание на самом деле представляет собой просто модель классификации, которая имеет числовые имена классов. Например, модель, которая прогнозирует числовой почтовый индекс, является моделью классификации, а не моделью регрессии.

regularization

#fundamentals

Любой механизм, который уменьшает переобучение . Популярные типы регуляризации включают в себя:

Регуляризацию также можно определить как штраф за сложность модели.

ставка регуляризации

#fundamentals

Число, указывающее относительную важность регуляризации во время обучения. Повышение уровня регуляризации уменьшает переобучение , но может снизить предсказательную силу модели. И наоборот, уменьшение или исключение уровня регуляризации увеличивает переобучение.

reinforcement learning (RL)

#рл

A family of algorithms that learn an optimal policy , whose goal is to maximize return when interacting with an environment . For example, the ultimate reward of most games is victory. Reinforcement learning systems can become expert at playing complex games by evaluating sequences of previous game moves that ultimately led to wins and sequences that ultimately led to losses.

Reinforcement Learning from Human Feedback (RLHF)

#генеративныйИИ
#рл

Using feedback from human raters to improve the quality of a model's responses. For example, an RLHF mechanism can ask users to rate the quality of a model's response with a 👍 or 👎 emoji. The system can then adjust its future responses based on that feedback.

РеЛУ

#fundamentals

Сокращение от «Выпрямленный линейный агрегат» .

replay buffer

#рл

In DQN -like algorithms, the memory used by the agent to store state transitions for use in experience replay .

копия

A copy of the training set or model , typically on another machine. For example, a system could use the following strategy for implementing data parallelism :

  1. Place replicas of an existing model on multiple machines.
  2. Send different subsets of the training set to each replica.
  3. Aggregate the parameter updates.

предвзятость в отчетности

#справедливость

The fact that the frequency with which people write about actions, outcomes, or properties is not a reflection of their real-world frequencies or the degree to which a property is characteristic of a class of individuals. Предвзятость отчетности может повлиять на состав данных, на которых учатся системы машинного обучения.

Например, в книгах слово «смеяться» встречается чаще, чем «дышать» . Модель машинного обучения, которая оценивает относительную частоту смеха и дыхания по корпусу книг, вероятно, определит, что смех встречается чаще, чем дыхание.

представительство

The process of mapping data to useful features .

re-ranking

#recsystems

The final stage of a recommendation system , during which scored items may be re-graded according to some other (typically, non-ML) algorithm. Re-ranking evaluates the list of items generated by the scoring phase, taking actions such as:

  • Eliminating items that the user has already purchased.
  • Boosting the score of fresher items.

генерация с расширенным поиском (RAG)

#основы

Метод улучшения качества результатов модели большого языка (LLM) путем ее обоснования источниками знаний, полученными после обучения модели. RAG повышает точность ответов LLM, предоставляя обученному LLM доступ к информации, полученной из надежных баз знаний или документов.

Общие мотивы для использования генерации с расширенным поиском включают в себя:

  • Повышение фактической точности сгенерированных ответов модели.
  • Предоставление модели доступа к знаниям, которым она не обучалась.
  • Изменение знаний, которые использует модель.
  • Включение модели для цитирования источников.

Например, предположим, что приложение по химии использует API PaLM для создания сводок, связанных с запросами пользователей. Когда серверная часть приложения получает запрос, серверная часть:

  1. Ищет («извлекает») данные, соответствующие запросу пользователя.
  2. Добавляет («дополняет») соответствующие химические данные к запросу пользователя.
  3. Указывает LLM создать сводку на основе добавленных данных.

возвращаться

#рл

In reinforcement learning, given a certain policy and a certain state, the return is the sum of all rewards that the agent expects to receive when following the policy from the state to the end of the episode . The agent accounts for the delayed nature of expected rewards by discounting rewards according to the state transitions required to obtain the reward.

Therefore, if the discount factor is \(\gamma\), и \(r_0, \ldots, r_{N}\)denote the rewards until the end of the episode, then the return calculation is as follows:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

награда

#рл

In reinforcement learning, the numerical result of taking an action in a state , as defined by the environment .

ridge regularization

Synonym for L 2 regularization . The term ridge regularization is more frequently used in pure statistics contexts, whereas L 2 regularization is used more often in machine learning.

RNN

#seq

Abbreviation for recurrent neural networks .

Кривая ROC (рабочая характеристика приемника)

#fundamentals

График зависимости истинно положительного результата от ложноположительного для различных порогов классификации в бинарной классификации.

Форма кривой ROC предполагает способность модели бинарной классификации отделять положительные классы от отрицательных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:

Номерная строка с 8 положительными примерами на правой стороне и           7 отрицательных примеров слева.

Кривая ROC для предыдущей модели выглядит следующим образом:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов.           является истинно положительным коэффициентом. Кривая имеет форму перевернутой буквы L. Кривая           начинается с (0.0,0.0) и идет прямо до (0.0,1.0). Тогда кривая           переходит от (0.0,1.0) к (1.0,1.0).

Напротив, на следующей иллюстрации показаны необработанные значения логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:

Числовая линия с положительными примерами и отрицательными классами           полностью перемешаны.

Кривая ROC для этой модели выглядит следующим образом:

Кривая ROC, которая на самом деле представляет собой прямую линию от (0,0,0,0).           до (1.0,1.0).

Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не идеально. Итак, типичная кривая ROC находится где-то между двумя крайностями:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов.           является истинно положительным коэффициентом. Кривая ROC представляет собой шаткую дугу.           пересекая направления компаса с запада на север.

Точка на кривой ROC, ближайшая к (0,0,1,0), теоретически определяет идеальный порог классификации. Однако на выбор идеального порога классификации влияют несколько других проблем реального мира. Например, возможно, ложноотрицательные результаты причиняют гораздо больше боли, чем ложноположительные.

Числовая метрика, называемая AUC, суммирует кривую ROC в одно значение с плавающей запятой.

role prompting

#язык
#генеративныйИИ

An optional part of a prompt that identifies a target audience for a generative AI model's response. Without a role prompt, a large language model provides an answer that may or may not be useful for the person asking the questions. With a role prompt, a large language model can answer in a way that's more appropriate and more helpful for a specific target audience. For example, the role prompt portion of the following prompts are in boldface:

  • Summarize this article for a PhD in economics .
  • Describe how tides work for a ten-year old .
  • Explain the 2008 financial crisis. Speak as you might to a young child, or a golden retriever.

корень

#df

The starting node (the first condition ) in a decision tree . By convention, diagrams put the root at the top of the decision tree. Например:

A decision tree with two conditions and three leaves.           starting condition (x > 2) is the root.

корневой каталог

#TensorFlow

The directory you specify for hosting subdirectories of the TensorFlow checkpoint and events files of multiple models.

Среднеквадратическая ошибка (RMSE)

#fundamentals

Квадратный корень из среднеквадратической ошибки .

rotational invariance

#изображение

In an image classification problem, an algorithm's ability to successfully classify images even when the orientation of the image changes. For example, the algorithm can still identify a tennis racket whether it is pointing up, sideways, or down. Note that rotational invariance is not always desirable; for example, an upside-down 9 shouldn't be classified as a 9.

See also translational invariance and size invariance .

ROUGE (Дублер, ориентированный на отзыв, для оценки Gisting)

#язык

A family of metrics that evaluate automatic summarization and machine translation models. ROUGE metrics determine the degree to which a reference text overlaps an ML model's generated text . Each member of the ROUGE family measures overlap in a different way. Higher ROUGE scores indicate more similarity between the reference text and generated text than lower ROUGE scores.

Each ROUGE family member typically generates the following metrics:

  • Точность
  • Отзывать
  • Ф 1

For details and examples, see:

РУЖ-Л

#язык

A member of the ROUGE family focused on the length of the longest common subsequence in the reference text and generated text . The following formulas calculate recall and precision for ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

You can then use F 1 to roll up ROUGE-L recall and ROUGE-L precision into a single metric:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignores any newlines in the reference text and generated text, so the longest common subsequence could cross multiple sentences. When the reference text and generated text involve multiple sentences, a variation of ROUGE-L called ROUGE-Lsum is generally a better metric. ROUGE-Lsum determines the longest common subsequence for each sentence in a passage and then calculates the mean of those longest common subsequences.

ROUGE-N

#язык

A set of metrics within the ROUGE family that compares the shared N-grams of a certain size in the reference text and generated text . Например:

  • ROUGE-1 measures the number of shared tokens in the reference text and generated text.
  • ROUGE-2 measures the number of shared bigrams (2-grams) in the reference text and generated text.
  • ROUGE-3 measures the number of shared trigrams (3-grams) in the reference text and generated text.

You can use the following formulas to calculate ROUGE-N recall and ROUGE-N precision for any member of the ROUGE-N family:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

You can then use F 1 to roll up ROUGE-N recall and ROUGE-N precision into a single metric:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#язык

A forgiving form of ROUGE-N that enables skip-gram matching. That is, ROUGE-N only counts N-grams that match exactly , but ROUGE-S also counts N-grams separated by one or more words. For example, consider the following:

When calculating ROUGE-N, the 2-gram, White clouds doesn't match White billowing clouds . However, when calculating ROUGE-S, White clouds does match White billowing clouds .

R-squared

A regression metric indicating how much variation in a label is due to an individual feature or to a feature set. R-squared is a value between 0 and 1, which you can interpret as follows:

  • An R-squared of 0 means that none of a label's variation is due to the feature set.
  • An R-squared of 1 means that all of a label's variation is due to the feature set.
  • An R-squared between 0 and 1 indicates the extent to which the label's variation can be predicted from a particular feature or the feature set. For example, an R-squared of 0.10 means that 10 percent of the variance in the label is due to the feature set, an R-squared of 0.20 means that 20 percent is due to the feature set, and so on.

R-squared is the square of the Pearson correlation coefficient between the values that a model predicted and ground truth .

С

смещение выборки

#справедливость

См. смещение выбора .

sampling with replacement

#df

A method of picking items from a set of candidate items in which the same item can be picked multiple times. The phrase "with replacement" means that after each selection, the selected item is returned to the pool of candidate items. The inverse method, sampling without replacement , means that a candidate item can only be picked once.

For example, consider the following fruit set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suppose that the system randomly picks fig as the first item. If using sampling with replacement, then the system picks the second item from the following set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Yes, that's the same set as before, so the system could potentially pick fig again.

If using sampling without replacement, once picked, a sample can't be picked again. For example, if the system randomly picks fig as the first sample, then fig can't be picked again. Therefore, the system picks the second sample from the following (reduced) set:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

The recommended format for saving and recovering TensorFlow models. SavedModel is a language-neutral, recoverable serialization format, which enables higher-level systems and tools to produce, consume, and transform TensorFlow models.

See the Saving and Restoring section of the TensorFlow Programmer's Guide for complete details.

Экономьте

#TensorFlow

A TensorFlow object responsible for saving model checkpoints.

скаляр

A single number or a single string that can be represented as a tensor of rank 0. For example, the following lines of code each create one scalar in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

масштабирование

Any mathematical transform or technique that shifts the range of a label and/or feature value. Some forms of scaling are very useful for transformations like normalization .

Common forms of scaling useful in Machine Learning include:

  • linear scaling, which typically uses a combination of subtraction and division to replace the original value with a number between -1 and +1 or between 0 and 1.
  • logarithmic scaling, which replaces the original value with its logarithm.
  • Z-score normalization , which replaces the original value with a floating-point value representing the number of standard deviations from that feature's mean.

scikit-learn

A popular open-source machine learning platform. See scikit-learn.org .

подсчет очков

#recsystems

The part of a recommendation system that provides a value or ranking for each item produced by the candidate generation phase.

предвзятость отбора

#справедливость

Ошибки в выводах, сделанных на основе выборочных данных, из-за процесса отбора, который приводит к систематическим различиям между выборками, наблюдаемыми в данных, и теми, которые не наблюдались. Существуют следующие формы систематической ошибки отбора:

  • смещение охвата : популяция, представленная в наборе данных, не соответствует популяции, о которой прогнозирует модель машинного обучения.
  • систематическая ошибка выборки : данные из целевой группы собираются не случайным образом.
  • non-response bias (also called participation bias ): Users from certain groups opt-out of surveys at different rates than users from other groups.

Например, предположим, что вы создаете модель машинного обучения, которая предсказывает удовольствие людей от фильма. Чтобы собрать данные обучения, вы раздаете опросник всем, кто находится в первом ряду кинотеатра, где показывают фильм. На первый взгляд это может показаться разумным способом сбора набора данных; однако эта форма сбора данных может привести к следующим формам систематической ошибки отбора:

  • предвзятость охвата: при выборке из группы населения, которая решила посмотреть фильм, прогнозы вашей модели могут не распространяться на людей, которые еще не проявили такой уровень интереса к фильму.
  • смещение выборки: вместо случайной выборки из предполагаемой совокупности (всех людей в фильме) вы выбрали только людей в первом ряду. Возможно, что люди, сидевшие в первом ряду, заинтересовались фильмом больше, чем те, кто сидел в других рядах.
  • предвзятость в связи с отсутствием ответов. В целом, люди с сильными мнениями склонны отвечать на дополнительные опросы чаще, чем люди с умеренными мнениями. Поскольку опрос по фильму не является обязательным, ответы с большей вероятностью образуют бимодальное распределение, чем нормальное (колокольчатое) распределение.

self-attention (also called self-attention layer)

#язык

A neural network layer that transforms a sequence of embeddings (for example, token embeddings) into another sequence of embeddings. Each embedding in the output sequence is constructed by integrating information from the elements of the input sequence through an attention mechanism.

The self part of self-attention refers to the sequence attending to itself rather than to some other context. Self-attention is one of the main building blocks for Transformers and uses dictionary lookup terminology, such as "query", "key", and "value".

A self-attention layer starts with a sequence of input representations, one for each word. The input representation for a word can be a simple embedding. For each word in an input sequence, the network scores the relevance of the word to every element in the whole sequence of words. The relevance scores determine how much the word's final representation incorporates the representations of other words.

Например, рассмотрим следующее предложение:

The animal didn't cross the street because it was too tired.

The following illustration (from Transformer: A Novel Neural Network Architecture for Language Understanding ) shows a self-attention layer's attention pattern for the pronoun it , with the darkness of each line indicating how much each word contributes to the representation:

The following sentence appears twice: The animal didn't cross the
          street because it was too tired. Lines connect the pronoun it in
          one sentence to five tokens (The, animal, street, it, and
          the period) in the other sentence.  The line between the pronoun it
          and the word animal is strongest.

The self-attention layer highlights words that are relevant to "it". In this case, the attention layer has learned to highlight words that it might refer to, assigning the highest weight to animal .

For a sequence of n tokens , self-attention transforms a sequence of embeddings n separate times, once at each position in the sequence.

Refer also to attention and multi-head self-attention .

self-supervised learning

A family of techniques for converting an unsupervised machine learning problem into a supervised machine learning problem by creating surrogate labels from unlabeled examples .

Some Transformer -based models such as BERT use self-supervised learning.

Self-supervised training is a semi-supervised learning approach.

self-training

A variant of self-supervised learning that is particularly useful when all of the following conditions are true:

Self-training works by iterating over the following two steps until the model stops improving:

  1. Use supervised machine learning to train a model on the labeled examples.
  2. Use the model created in Step 1 to generate predictions (labels) on the unlabeled examples, moving those in which there is high confidence into the labeled examples with the predicted label.

Notice that each iteration of Step 2 adds more labeled examples for Step 1 to train on.

semi-supervised learning

Training a model on data where some of the training examples have labels but others don't. One technique for semi-supervised learning is to infer labels for the unlabeled examples, and then to train on the inferred labels to create a new model. Semi-supervised learning can be useful if labels are expensive to obtain but unlabeled examples are plentiful.

Self-training is one technique for semi-supervised learning.

чувствительный атрибут

#справедливость
Человеческий атрибут, которому можно уделять особое внимание по юридическим, этическим, социальным или личным причинам.

анализ настроений

#язык

Using statistical or machine learning algorithms to determine a group's overall attitude—positive or negative—toward a service, product, organization, or topic. For example, using natural language understanding , an algorithm could perform sentiment analysis on the textual feedback from a university course to determine the degree to which students generally liked or disliked the course.

sequence model

#seq

A model whose inputs have a sequential dependence. For example, predicting the next video watched from a sequence of previously watched videos.

sequence-to-sequence task

#язык

A task that converts an input sequence of tokens to an output sequence of tokens. For example, two popular kinds of sequence-to-sequence tasks are:

  • Translators:
    • Sample input sequence: "I love you."
    • Sample output sequence: "Je t'aime."
  • Question answering:
    • Sample input sequence: "Do I need my car in New York City?"
    • Sample output sequence: "No. Please keep your car at home."

сервировка

The process of making a trained model available to provide predictions through online inference or offline inference .

shape (Tensor)

The number of elements in each dimension of a tensor. The shape is represented as a list of integers. For example, the following two-dimensional tensor has a shape of [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow uses row-major (C-style) format to represent the order of dimensions, which is why the shape in TensorFlow is [3,4] rather than [4,3] . In other words, in a two-dimensional TensorFlow Tensor, the shape is [ number of rows , number of columns ] .

A static shape is a tensor shape that is known at compile time.

A dynamic shape is unknown at compile time and is therefore dependent on runtime data. This tensor might be represented with a placeholder dimension in TensorFlow, as in [3, ?] .

осколок

#TensorFlow
#Googlecloud

A logical division of the training set or the model . Typically, some process creates shards by dividing the examples or parameters into (usually) equal-sized chunks. Each shard is then assigned to a different machine.

Sharding a model is called model parallelism ; sharding data is called data parallelism .

усадка

#df

A hyperparameter in gradient boosting that controls overfitting . Shrinkage in gradient boosting is analogous to learning rate in gradient descent . Shrinkage is a decimal value between 0.0 and 1.0. A lower shrinkage value reduces overfitting more than a larger shrinkage value.

сигмовидная функция

#fundamentals

Математическая функция, которая «сжимает» входное значение в ограниченный диапазон, обычно от 0 до 1 или от -1 до +1. То есть вы можете передать любое число (два, миллион, отрицательный миллиард и т. д.) в сигмовидную форму, и результат все равно будет находиться в ограниченном диапазоне. График сигмовидной функции активации выглядит следующим образом:

Двумерный изогнутый график со значениями x, охватывающими область.           от -бесконечности до +положительного, а значения y охватывают диапазон от почти 0 до           почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда           положительный, с наибольшим наклоном 0,0,5 и постепенно уменьшающимся           наклоны по мере увеличения абсолютного значения x.

Сигмовидная функция имеет несколько применений в машинном обучении, в том числе:

similarity measure

#кластеризация

In clustering algorithms, the metric used to determine how alike (how similar) any two examples are.

single program / multiple data (SPMD)

A parallelism technique where the same computation is run on different input data in parallel on different devices. The goal of SPMD is to obtain results more quickly. It is the most common style of parallel programming.

size invariance

#изображение

In an image classification problem, an algorithm's ability to successfully classify images even when the size of the image changes. For example, the algorithm can still identify a cat whether it consumes 2M pixels or 200K pixels. Note that even the best image classification algorithms still have practical limits on size invariance. For example, an algorithm (or human) is unlikely to correctly classify a cat image consuming only 20 pixels.

See also translational invariance and rotational invariance .

sketching

#кластеризация

In unsupervised machine learning , a category of algorithms that perform a preliminary similarity analysis on examples. Sketching algorithms use a locality-sensitive hash function to identify points that are likely to be similar, and then group them into buckets.

Sketching decreases the computation required for similarity calculations on large datasets. Instead of calculating similarity for every single pair of examples in the dataset, we calculate similarity only for each pair of points within each bucket.

skip-gram

#язык

An n-gram which may omit (or "skip") words from the original context, meaning the N words might not have been originally adjacent. More precisely, a "k-skip-n-gram" is an n-gram for which up to k words may have been skipped.

For example, "the quick brown fox" has the following possible 2-grams:

  • "the quick"
  • "quick brown"
  • "brown fox"

A "1-skip-2-gram" is a pair of words that have at most 1 word between them. Therefore, "the quick brown fox" has the following 1-skip 2-grams:

  • "the brown"
  • "quick fox"

In addition, all the 2-grams are also 1-skip-2-grams, since fewer than one word may be skipped.

Skip-grams are useful for understanding more of a word's surrounding context. In the example, "fox" was directly associated with "quick" in the set of 1-skip-2-grams, but not in the set of 2-grams.

Skip-grams help train word embedding models.

Softmax

#основы

A function that determines probabilities for each possible class in a multi-class classification model . Вероятности в сумме составляют ровно 1,0. Например, в следующей таблице показано, как softmax распределяет различные вероятности:

Имидж - это... Вероятность
собака .85
кот .13
лошадь .02

Softmax также называют полным softmax .

Сравните с выборкой кандидатов .

soft prompt tuning

#язык
#генеративныйИИ

A technique for tuning a large language model for a particular task, without resource intensive fine-tuning . Instead of retraining all the weights in the model, soft prompt tuning automatically adjusts a prompt to achieve the same goal.

Given a textual prompt, soft prompt tuning typically appends additional token embeddings to the prompt and uses backpropagation to optimize the input.

A "hard" prompt contains actual tokens instead of token embeddings.

редкая особенность

#язык
#fundamentals

Объект , значения которого преимущественно равны нулю или пусты. Например, объект, содержащий одно значение 1 и миллион значений 0, является редким. Напротив, плотный объект имеет значения, которые преимущественно не равны нулю или пусты.

В машинном обучении удивительное количество функций являются редкими. Категориальные признаки обычно являются редкими. Например, из 300 возможных пород деревьев в лесу единственный пример может идентифицировать только клен . Или из миллионов возможных видео в видеотеке единственный пример может идентифицировать только «Касабланку».

В модели вы обычно представляете разреженные элементы с помощью горячего кодирования . Если горячее кодирование большое, вы можете поместить слой внедрения поверх горячего кодирования для большей эффективности.

редкое представительство

#язык
#fundamentals

Сохранение только позиций ненулевых элементов в разреженном объекте.

Например, предположим, что категориальная особенность, названная species идентифицирует 36 видов деревьев в конкретном лесу. Далее предположим, что каждый пример идентифицирует только один вид.

Вы можете использовать одножелачный вектор для представления видов деревьев в каждом примере. Одножележный вектор будет содержать один 1 (для представления конкретных видов деревьев в этом примере) и 35 0 с (для представления 35 видов деревьев не в этом примере). Таким образом, одножелательное представление о maple может выглядеть как-то вроде следующего:

Вектор, в котором позиции от 0 до 23 удерживают значение 0, позиция           24 имеет значение 1, а позиции с 25 по 35 удерживают значение 0.

В качестве альтернативы, разреженное представление просто идентифицирует положение конкретного вида. Если maple находится в позиции 24, то разреженное представление о maple было бы просто:

24

Обратите внимание, что редкое представление гораздо более компактно, чем одножелательное представление.

редкий вектор

#fundamentals

Вектор, ценности которых в основном нули. Смотрите также разреженную функцию и редкость .

sparsity

The number of elements set to zero (or null) in a vector or matrix divided by the total number of entries in that vector or matrix. For example, consider a 100-element matrix in which 98 cells contain zero. The calculation of sparsity is as follows:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature sparsity refers to the sparsity of a feature vector; model sparsity refers to the sparsity of the model weights.

spatial pooling

#изображение

See pooling .

расколоть

#df

In a decision tree , another name for a condition .

разделитель

#df

While training a decision tree , the routine (and algorithm) responsible for finding the best condition at each node .

SPMD

Abbreviation for single program / multiple data .

squared hinge loss

The square of the hinge loss . Squared hinge loss penalizes outliers more harshly than regular hinge loss.

квадратная потеря

#fundamentals

Синоним L 2 потери .

staged training

#язык

A tactic of training a model in a sequence of discrete stages. The goal can be either to speed up the training process, or to achieve better model quality.

An illustration of the progressive stacking approach is shown below:

  • Stage 1 contains 3 hidden layers, stage 2 contains 6 hidden layers, and stage 3 contains 12 hidden layers.
  • Stage 2 begins training with the weights learned in the 3 hidden layers of Stage 1. Stage 3 begins training with the weights learned in the 6 hidden layers of Stage 2.

Three stages, which are labeled Stage 1, Stage 2, and Stage 3.
          Each stage contains a different number of layers: Stage 1 contains
          3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.
          The 3 layers from Stage 1 become the first 3 layers of Stage 2.
          Similarly, the 6 layers from Stage 2 become the first 6 layers of
          Stage 3.

See also pipelining .

состояние

#рл

In reinforcement learning, the parameter values that describe the current configuration of the environment, which the agent uses to choose an action .

state-action value function

#рл

Synonym for Q-function .

статический

#fundamentals

Что -то сделано один раз, а не непрерывно. Условия статического и офлайн являются синонимами. Ниже приведены обычные использование статического и офлайн в машинном обучении:

  • Статическая модель (или автономная модель ) - это модель, обученная один раз, а затем некоторое время используется.
  • Статическое обучение (или офлайн -обучение ) - это процесс обучения статической модели.
  • Статический вывод (или автономный вывод ) - это процесс, в котором модель генерирует партию прогнозов одновременно.

Контраст с динамикой .

Статический вывод

#fundamentals

Синоним вывода в автономном режиме .

стационарность

#fundamentals

Функция, значения которых не меняются в одном или нескольких измерениях, обычно время. Например, функция, чьи значения выглядят так же в 2021 и 2023 годах, демонстрирует стационарность.

В реальном мире очень немногие особенности выставлены стационарностью. Даже функции синонимично со временем изменяются со стабильностью (например, уровень моря).

Контраст с нестационарностью .

шаг

A forward pass and backward pass of one batch .

See backpropagation for more information on the forward pass and backward pass.

step size

Synonym for learning rate .

Стохастический градиент спуск (SGD)

#fundamentals

Алгоритм градиентного спуска , в котором размер партии один. Другими словами, SGD тренируется по одному примеру, выбранному в случайном роде из учебного набора .

шагать

#изображение

In a convolutional operation or pooling, the delta in each dimension of the next series of input slices. For example, the following animation demonstrates a (1,1) stride during a convolutional operation. Therefore, the next input slice starts one position to the right of the previous input slice. When the operation reaches the right edge, the next slice is all the way over to the left but one position down.

An input 5x5 matrix and a 3x3 convolutional filter. Потому что      stride is (1,1), a convolutional filter will be applied 9 times. Первый      convolutional slice evaluates the top-left 3x3 submatrix of the input      matrix. The second slice evaluates the top-middle 3x3      submatrix. The third convolutional slice evaluates the top-right 3x3      submatrix.  The fourth slice evaluates the middle-left 3x3 submatrix.      The fifth slice evaluates the middle 3x3 submatrix. The sixth slice      evaluates the middle-right 3x3 submatrix. The seventh slice evaluates      the bottom-left 3x3 submatrix.  The eighth slice evaluates the      bottom-middle 3x3 submatrix. The ninth slice evaluates the bottom-right 3x3      submatrix.

The preceding example demonstrates a two-dimensional stride. If the input matrix is three-dimensional, the stride would also be three-dimensional.

structural risk minimization (SRM)

An algorithm that balances two goals:

  • The need to build the most predictive model (for example, lowest loss).
  • The need to keep the model as simple as possible (for example, strong regularization).

For example, a function that minimizes loss+regularization on the training set is a structural risk minimization algorithm.

Contrast with empirical risk minimization .

subsampling

#изображение

See pooling .

subword token

#язык

In language models , a token that is a substring of a word, which may be the entire word.

For example, a word like "itemize" might be broken up into the pieces "item" (a root word) and "ize" (a suffix), each of which is represented by its own token. Splitting uncommon words into such pieces, called subwords, allows language models to operate on the word's more common constituent parts, such as prefixes and suffixes.

Conversely, common words like "going" might not be broken up and might be represented by a single token.

краткое содержание

#TensorFlow

In TensorFlow, a value or set of values calculated at a particular step , usually used for tracking model metrics during training.

контролируемое машинное обучение

#fundamentals

Обучение модели из функций и их соответствующих ярлыков . Наблюдаемое машинное обучение аналогично изучению предмета путем изучения набора вопросов и соответствующих ответов. После овладения картированием между вопросами и ответами, студент может дать ответы на новые (никогда не видно) вопросах на одну и ту же тему.

Сравните с неконтролируемым машинным обучением .

синтетическая особенность

#fundamentals

Функция не присутствует среди входных функций, но собрана из одного или нескольких из них. Методы создания синтетических особенностей включают следующее:

  • Ведение непрерывной функции в мусорные баки.
  • Создание функционального креста .
  • Умножение (или делясь) одно значение функции на другие значения (ы) функции или сами по себе. Например, если a и b являются входными характеристиками, то следующие примеры синтетических функций:
    • аб
    • a 2
  • Применение трансцендентальной функции к значению функции. Например, если c является входной функцией, то следующие примеры синтетических функций:
    • грех (c)
    • ln (c)

Особенности, созданные путем нормализации или масштабирования , не считаются синтетическими особенностями.

Т

Т5

#язык

A text-to-text transfer learning model introduced by Google AI in 2020 . T5 is an encoder - decoder model, based on the Transformer architecture, trained on an extremely large dataset. It is effective at a variety of natural language processing tasks, such as generating text, translating languages, and answering questions in a conversational manner.

T5 gets its name from the five T's in "Text-to-Text Transfer Transformer."

T5X

#язык

An open-source, machine learning framework designed to build and train large-scale natural language processing (NLP) models. T5 is implemented on the T5X codebase (which is built on JAX and Flax ).

tabular Q-learning

#рл

In reinforcement learning , implementing Q-learning by using a table to store the Q-functions for every combination of state and action .

цель

Synonym for label .

target network

#рл

In Deep Q-learning , a neural network that is a stable approximation of the main neural network, where the main neural network implements either a Q-function or a policy . Then, you can train the main network on the Q-values predicted by the target network. Therefore, you prevent the feedback loop that occurs when the main network trains on Q-values predicted by itself. By avoiding this feedback, training stability increases.

задача

A problem that can be solved using machine learning techniques, such as:

температура

#язык
#изображение
#генеративныйИИ

A hyperparameter that controls the degree of randomness of a model's output. Higher temperatures result in more random output, while lower temperatures result in less random output.

Choosing the best temperature depends on the specific application and the preferred properties of the model's output. For example, you would probably raise the temperature when creating an application that generates creative output. Conversely, you would probably lower the temperature when building a model that classifies images or text in order to improve the model's accuracy and consistency.

Temperature is often used with softmax .

temporal data

Data recorded at different points in time. For example, winter coat sales recorded for each day of the year would be temporal data.

Тензор

#TensorFlow

The primary data structure in TensorFlow programs. Tensors are N-dimensional (where N could be very large) data structures, most commonly scalars, vectors, or matrixes. The elements of a Tensor can hold integer, floating-point, or string values.

TensorBoard

#TensorFlow

The dashboard that displays the summaries saved during the execution of one or more TensorFlow programs.

Тензорфлоу

#TensorFlow

A large-scale, distributed, machine learning platform. The term also refers to the base API layer in the TensorFlow stack, which supports general computation on dataflow graphs.

Although TensorFlow is primarily used for machine learning, you may also use TensorFlow for non-ML tasks that require numerical computation using dataflow graphs.

TensorFlow Playground

#TensorFlow

A program that visualizes how different hyperparameters influence model (primarily neural network) training. Go to http://playground.tensorflow.org to experiment with TensorFlow Playground.

TensorFlow Serving

#TensorFlow

A platform to deploy trained models in production.

Tensor Processing Unit (TPU)

#TensorFlow
#Googlecloud

An application-specific integrated circuit (ASIC) that optimizes the performance of machine learning workloads. These ASICs are deployed as multiple TPU chips on a TPU device .

Tensor rank

#TensorFlow

See rank (Tensor) .

Tensor shape

#TensorFlow

The number of elements a Tensor contains in various dimensions. For example, a [5, 10] Tensor has a shape of 5 in one dimension and 10 in another.

Tensor size

#TensorFlow

The total number of scalars a Tensor contains. For example, a [5, 10] Tensor has a size of 50.

TensorStore

A library for efficiently reading and writing large multi-dimensional arrays.

termination condition

#рл

In reinforcement learning , the conditions that determine when an episode ends, such as when the agent reaches a certain state or exceeds a threshold number of state transitions. For example, in tic-tac-toe (also known as noughts and crosses), an episode terminates either when a player marks three consecutive spaces or when all spaces are marked.

тест

#df

In a decision tree , another name for a condition .

Тестовая потеря

#fundamentals

Метрика, представляющая потерю модели против испытательного набора . При создании модели вы обычно пытаетесь минимизировать потерю тестов. Это связано с тем, что низкая потеря тестов является более сильным сигналом качества, чем низкая потери тренировок или низкая потери проверки .

Большой разрыв между потерей теста и потерей обучения или потерей проверки иногда предполагает, что вам необходимо увеличить частоту регуляризации .

test set

A subset of the dataset reserved for testing a trained model .

Traditionally, you divide examples in the dataset into the following three distinct subsets:

Each example in a dataset should belong to only one of the preceding subsets. For instance, a single example shouldn't belong to both the training set and the test set.

The training set and validation set are both closely tied to training a model. Because the test set is only indirectly associated with training, test loss is a less biased, higher quality metric than training loss or validation loss .

text span

#язык

The array index span associated with a specific subsection of a text string. For example, the word good in the Python string s="Be good now" occupies the text span from 3 to 6.

tf.Example

#TensorFlow

A standard protocol buffer for describing input data for machine learning model training or inference.

tf.keras

#TensorFlow

An implementation of Keras integrated into TensorFlow .

threshold (for decision trees)

#df

In an axis-aligned condition , the value that a feature is being compared against. For example, 75 is the threshold value in the following condition:

grade >= 75

time series analysis

#кластеризация

A subfield of machine learning and statistics that analyzes temporal data . Many types of machine learning problems require time series analysis, including classification, clustering, forecasting, and anomaly detection. For example, you could use time series analysis to forecast the future sales of winter coats by month based on historical sales data.

timestep

#seq

One "unrolled" cell within a recurrent neural network . For example, the following figure shows three timesteps (labeled with the subscripts t-1, t, and t+1):

Three timesteps in a recurrent neural network. The output of the
          first timestep becomes input to the second timestep. The output
          of the second timestep becomes input to the third timestep.

жетон

#язык

In a language model , the atomic unit that the model is training on and making predictions on. A token is typically one of the following:

  • a word—for example, the phrase "dogs like cats" consists of three word tokens: "dogs", "like", and "cats".
  • a character—for example, the phrase "bike fish" consists of nine character tokens. (Note that the blank space counts as one of the tokens.)
  • subwords—in which a single word can be a single token or multiple tokens. A subword consists of a root word, a prefix, or a suffix. For example, a language model that uses subwords as tokens might view the word "dogs" as two tokens (the root word "dog" and the plural suffix "s"). That same language model might view the single word "taller" as two subwords (the root word "tall" and the suffix "er").

In domains outside of language models, tokens can represent other kinds of atomic units. For example, in computer vision, a token might be a subset of an image.

top-k accuracy

#язык

The percentage of times that a "target label" appears within the first k positions of generated lists. The lists could be personalized recommendations or a list of items ordered by softmax .

Top-k accuracy is also known as accuracy at k .

башня

A component of a deep neural network that is itself a deep neural network. In some cases, each tower reads from an independent data source, and those towers stay independent until their output is combined in a final layer. In other cases, (for example, in the encoder and decoder tower of many Transformers ), towers have cross-connections to each other.

toxicity

#язык

The degree to which content is abusive, threatening, or offensive. Many machine learning models can identify and measure toxicity. Most of these models identify toxicity along multiple parameters, such as the level of abusive language and the level of threatening language.

TPU

#TensorFlow
#Googlecloud

Abbreviation for Tensor Processing Unit .

TPU chip

#TensorFlow
#Googlecloud

A programmable linear algebra accelerator with on-chip high bandwidth memory that is optimized for machine learning workloads. Multiple TPU chips are deployed on a TPU device .

TPU device

#TensorFlow
#Googlecloud

A printed circuit board (PCB) with multiple TPU chips , high bandwidth network interfaces, and system cooling hardware.

TPU master

#TensorFlow
#Googlecloud

The central coordination process running on a host machine that sends and receives data, results, programs, performance, and system health information to the TPU workers . The TPU master also manages the setup and shutdown of TPU devices .

TPU node

#TensorFlow
#Googlecloud

A TPU resource on Google Cloud with a specific TPU type . The TPU node connects to your VPC Network from a peer VPC network . TPU nodes are a resource defined in the Cloud TPU API .

TPU Pod

#TensorFlow
#Googlecloud

A specific configuration of TPU devices in a Google data center. All of the devices in a TPU Pod are connected to one another over a dedicated high-speed network. A TPU Pod is the largest configuration of TPU devices available for a specific TPU version.

TPU resource

#TensorFlow
#Googlecloud

A TPU entity on Google Cloud that you create, manage, or consume. For example, TPU nodes and TPU types are TPU resources.

TPU slice

#TensorFlow
#Googlecloud

A TPU slice is a fractional portion of the TPU devices in a TPU Pod . All of the devices in a TPU slice are connected to one another over a dedicated high-speed network.

TPU type

#TensorFlow
#Googlecloud

A configuration of one or more TPU devices with a specific TPU hardware version. You select a TPU type when you create a TPU node on Google Cloud. For example, a v2-8 TPU type is a single TPU v2 device with 8 cores. A v3-2048 TPU type has 256 networked TPU v3 devices and a total of 2048 cores. TPU types are a resource defined in the Cloud TPU API .

TPU worker

#TensorFlow
#Googlecloud

A process that runs on a host machine and executes machine learning programs on TPU devices .

обучение

#fundamentals

Процесс определения идеальных параметров (веса и смещения), включающий модель . Во время обучения система читает в примерах и постепенно корректирует параметры. Обучение использует каждый пример от нескольких раз до миллиардов раз.

потеря тренировки

#fundamentals

Метрика, представляющая потерю модели во время конкретной учебной итерации. Например, предположим, что функция потери является средней квадратной ошибкой . Возможно, потери обучения (средняя квадратная ошибка) для 10 -й итерации составляет 2,2, а утрата обучения для 100 -й итерации составляет 1,9.

Кривая потерь определяет потерю обучения по сравнению с количеством итераций. Кривая потерь дает следующие намеки на обучение:

  • Нисходящий наклон подразумевает, что модель улучшается.
  • Вверх уклон подразумевает, что модель ухудшается.
  • Плоский наклон подразумевает, что модель достигла сходимости .

Например, на следующей несколько идеализированной кривой потерь показывает:

  • Крутой наклон вниз во время начальных итераций, что подразумевает быстрое улучшение модели.
  • Постепенно сглаживающий (но все еще вниз) наклон до конца тренировок, что подразумевает продолжающееся улучшение модели в несколько более медленном темпе, чем во время начальных итераций.
  • Плоский склон к концу тренировок, который предполагает сходимость.

Сюжет потери обучения по сравнению с итерациями. Эта кривая потерь начинается      с крутым вниз склоном. Склон постепенно сглаживается, пока      склон становится нулевым.

Хотя убытка обучения важна, см. Также обобщение .

Обучение, проведенному на тренировке

#fundamentals

Разница между производительностью модели во время обучения и производительности той же модели во время подачи .

обучающий набор

#fundamentals

Подмножество набора данных, используемого для обучения модели .

Традиционно, примеры в наборе данных делятся на следующие три отделения подмножества:

В идеале каждый пример в наборе данных должен принадлежать только к одному из предыдущих подмножеств. Например, один пример не должен принадлежать как набору обучения, так и к набору валидации.

траектория

#рл

In reinforcement learning , a sequence of tuples that represent a sequence of state transitions of the agent , where each tuple corresponds to the state, action , reward , and next state for a given state transition.

трансферное обучение

Transferring information from one machine learning task to another. For example, in multi-task learning, a single model solves multiple tasks, such as a deep model that has different output nodes for different tasks. Transfer learning might involve transferring knowledge from the solution of a simpler task to a more complex one, or involve transferring knowledge from a task where there is more data to one where there is less data.

Most machine learning systems solve a single task. Transfer learning is a baby step towards artificial intelligence in which a single program can solve multiple tasks.

Трансформатор

#язык

A neural network architecture developed at Google that relies on self-attention mechanisms to transform a sequence of input embeddings into a sequence of output embeddings without relying on convolutions or recurrent neural networks . A Transformer can be viewed as a stack of self-attention layers.

A Transformer can include any of the following:

An encoder transforms a sequence of embeddings into a new sequence of the same length. An encoder includes N identical layers, each of which contains two sub-layers. These two sub-layers are applied at each position of the input embedding sequence, transforming each element of the sequence into a new embedding. The first encoder sub-layer aggregates information from across the input sequence. The second encoder sub-layer transforms the aggregated information into an output embedding.

A decoder transforms a sequence of input embeddings into a sequence of output embeddings, possibly with a different length. A decoder also includes N identical layers with three sub-layers, two of which are similar to the encoder sub-layers. The third decoder sub-layer takes the output of the encoder and applies the self-attention mechanism to gather information from it.

The blog post Transformer: A Novel Neural Network Architecture for Language Understanding provides a good introduction to Transformers.

translational invariance

#изображение

In an image classification problem, an algorithm's ability to successfully classify images even when the position of objects within the image changes. For example, the algorithm can still identify a dog, whether it is in the center of the frame or at the left end of the frame.

See also size invariance and rotational invariance .

триграмма

#seq
#язык

An N-gram in which N=3.

истинный отрицательный (TN)

#fundamentals

Пример, в котором модель правильно предсказывает отрицательный класс . Например, модель делает, что конкретное сообщение электронной почты не является спамом , и это сообщение электронной почты на самом деле не спам .

истинный положительный (TP)

#fundamentals

Пример, в котором модель правильно предсказывает положительный класс . Например, модель делает, что конкретным сообщением электронной почты является спам, и это сообщение электронной почты действительно является спамом.

Истинная положительная скорость (TPR)

#fundamentals

Синоним для отзывов . То есть:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Истинная положительная скорость-ось Y в кривой ROC .

ты

неосведомленность (к чувствительному атрибуту)

#справедливость

Ситуация, в которой конфиденциальные атрибуты присутствуют, но не включены в обучающие данные. Поскольку конфиденциальные атрибуты часто коррелируют с другими атрибутами данных, модель, обученная без знания конфиденциального атрибута, все равно может оказывать несопоставимое влияние по отношению к этому атрибуту или нарушать другие ограничения справедливости .

недостаток

#fundamentals

Создание модели с плохой прогнозной способностью, потому что модель не полностью захватила сложность учебных данных. Многие проблемы могут вызвать недостаток, в том числе:

undersampling

Removing examples from the majority class in a class-imbalanced dataset in order to create a more balanced training set .

For example, consider a dataset in which the ratio of the majority class to the minority class is 20:1. To overcome this class imbalance, you could create a training set consisting of all of the minority class examples but only a tenth of the majority class examples, which would create a training-set class ratio of 2:1. Thanks to undersampling, this more balanced training set might produce a better model. Alternatively, this more balanced training set might contain insufficient examples to train an effective model.

Contrast with oversampling .

unidirectional

#язык

A system that only evaluates the text that precedes a target section of text. In contrast, a bidirectional system evaluates both the text that precedes and follows a target section of text. See bidirectional for more details.

unidirectional language model

#язык

A language model that bases its probabilities only on the tokens appearing before , not after , the target token(s). Contrast with bidirectional language model .

немеченые пример

#fundamentals

Пример, который содержит функции , но без метки . Например, в следующей таблице показаны три немеченые примеры из модели оценки дома, в каждом из которых есть три функции, но без значения дома:

Количество спален Количество ванных комнат Возраст дома
3 2 15
2 1 72
4 2 34

В контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .

В полупрофильном и неконтролируемом обучении немеченые примеры используются во время обучения.

Контрастные немеченые пример с маркированным примером .

Неконтролируемое машинное обучение

#кластеризация
#fundamentals

Обучение модели для поиска шаблонов в наборе данных, как правило, немеченым набором данных.

Наиболее распространенным использованием неконтролируемого машинного обучения является кластер данных в группы аналогичных примеров. Например, алгоритм машинного обучения неконтролируемого обучения может кластерировать песни на основе различных свойств музыки. Полученные кластеры могут стать введением в другие алгоритмы машинного обучения (например, в службу музыкальной рекомендации). Кластеризация может помочь, когда полезные этикетки редки или отсутствуют. Например, в таких областях, как противодействие и мошенничество, кластеры могут помочь людям лучше понять данные.

В отличие от контролируемого машинного обучения .

uplift modeling

A modeling technique, commonly used in marketing, that models the "causal effect" (also known as the "incremental impact") of a "treatment" on an "individual." Here are two examples:

  • Doctors might use uplift modeling to predict the mortality decrease (causal effect) of a medical procedure (treatment) depending on the age and medical history of a patient (individual).
  • Marketers might use uplift modeling to predict the increase in probability of a purchase (causal effect) due to an advertisement (treatment) on a person (individual).

Uplift modeling differs from classification or regression in that some labels (for example, half of the labels in binary treatments) are always missing in uplift modeling. For example, a patient can either receive or not receive a treatment; therefore, we can only observe whether the patient is going to heal or not heal in only one of these two situations (but never both). The main advantage of an uplift model is that it can generate predictions for the unobserved situation (the counterfactual) and use it to compute the causal effect.

upweighting

Applying a weight to the downsampled class equal to the factor by which you downsampled.

user matrix

#recsystems

In recommendation systems , an embedding vector generated by matrix factorization that holds latent signals about user preferences. Each row of the user matrix holds information about the relative strength of various latent signals for a single user. Например, рассмотрим систему рекомендаций фильма. In this system, the latent signals in the user matrix might represent each user's interest in particular genres, or might be harder-to-interpret signals that involve complex interactions across multiple factors.

The user matrix has a column for each latent feature and a row for each user. That is, the user matrix has the same number of rows as the target matrix that is being factorized. For example, given a movie recommendation system for 1,000,000 users, the user matrix will have 1,000,000 rows.

В

проверка

#основы

Первоначальная оценка качества модели. Валидация проверяет качество прогнозов модели в отношении набора валидации .

Поскольку набор проверки отличается от учебного набора , проверка помогает защитить от переосмысления .

Вы можете подумать о оценке модели с набором валидации как первого раунда тестирования и оценки модели с набором теста как второй раунд тестирования.

потеря проверки

#основы

Метрика, представляющая потерю модели при наборе проверки во время конкретной итерации обучения.

См. также кривую обобщения .

валидация набор

#fundamentals

Подмножество набора данных , которая выполняет начальную оценку по обученной модели . Как правило, вы оцениваете обученную модель по набору валидации несколько раз, прежде чем оценивать модель с набором тестирования .

Традиционно вы делите примеры в наборе данных на следующие три отделения подмножества:

В идеале каждый пример в наборе данных должен принадлежать только к одному из предыдущих подмножеств. Например, один пример не должен принадлежать как набору обучения, так и к набору валидации.

value imputation

The process of replacing a missing value with an acceptable substitute. When a value is missing, you can either discard the entire example or you can use value imputation to salvage the example.

For example, consider a dataset containing a temperature feature that is supposed to be recorded every hour. However, the temperature reading was unavailable for a particular hour. Here is a section of the dataset:

Timestamp Температура
1680561000 10
1680564600 12
1680568200 отсутствующий
1680571800 20
1680575400 21
1680579000 21

A system could either delete the missing example or impute the missing temperature as 12, 16, 18, or 20, depending on the imputation algorithm.

vanishing gradient problem

#seq

The tendency for the gradients of early hidden layers of some deep neural networks to become surprisingly flat (low). Increasingly lower gradients result in increasingly smaller changes to the weights on nodes in a deep neural network, leading to little or no learning. Models suffering from the vanishing gradient problem become difficult or impossible to train. Long Short-Term Memory cells address this issue.

Compare to exploding gradient problem .

variable importances

#df

A set of scores that indicates the relative importance of each feature to the model.

For example, consider a decision tree that estimates house prices. Suppose this decision tree uses three features: size, age, and style. If a set of variable importances for the three features are calculated to be {size=5.8, age=2.5, style=4.7}, then size is more important to the decision tree than age or style.

Different variable importance metrics exist, which can inform ML experts about different aspects of models.

variational autoencoder (VAE)

#язык

A type of autoencoder that leverages the discrepancy between inputs and outputs to generate modified versions of the inputs. Variational autoencoders are useful for generative AI .

VAEs are based on variational inference: a technique for estimating the parameters of a probability model.

вектор

Very overloaded term whose meaning varies across different mathematical and scientific fields. Within machine learning, a vector has two properties:

  • Data type: Vectors in machine learning usually hold floating-point numbers.
  • Number of elements: This is the vector's length or its dimension .

For example, consider a feature vector that holds eight floating-point numbers. This feature vector has a length or dimension of eight. Note that machine learning vectors often have a huge number of dimensions.

You can represent many different kinds of information as a vector. Например:

  • Any position on the surface of Earth can be represented as a 2-dimensional vector, where one dimension is the latitude and the other is the longitude.
  • The current prices of each of 500 stocks can be represented as a 500-dimensional vector.
  • A probability distribution over a finite number of classes can be represented as a vector. For example, a multiclass classification system that predicts one of three output colors (red, green, or yellow) could output the vector (0.3, 0.2, 0.5) to mean P[red]=0.3, P[green]=0.2, P[yellow]=0.5 .

Vectors can be concatenated; therefore, a variety of different media can be represented as a single vector. Some models operate directly on the concatenation of many one-hot encodings .

Specialized processors such as TPUs are optimized to perform mathematical operations on vectors.

A vector is a tensor of rank 1.

Вт

Wasserstein loss

One of the loss functions commonly used in generative adversarial networks , based on the earth mover's distance between the distribution of generated data and real data.

масса

#fundamentals

Значение, которое модель умножает на другое значение. Обучение - это процесс определения идеальных весов модели; Вывод - это процесс использования этих ученых весов для прогнозирования.

Weighted Alternating Least Squares (WALS)

#recsystems

An algorithm for minimizing the objective function during matrix factorization in recommendation systems , which allows a downweighting of the missing examples. WALS minimizes the weighted squared error between the original matrix and the reconstruction by alternating between fixing the row factorization and column factorization. Each of these optimizations can be solved by least squares convex optimization . For details, see the Recommendation Systems course .

взвешенная сумма

#fundamentals

Сумма всех соответствующих входных значений, умноженных на соответствующие веса. Например, предположим, что соответствующие входы состоят из следующего:

входное значение входной вес
2 -1,3
-1 0,6
3 0,4

Таким образом, взвешенная сумма равна:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Взвешенная сумма - это входной аргумент для функции активации .

wide model

A linear model that typically has many sparse input features . We refer to it as "wide" since such a model is a special type of neural network with a large number of inputs that connect directly to the output node. Wide models are often easier to debug and inspect than deep models . Although wide models cannot express nonlinearities through hidden layers , wide models can use transformations such as feature crossing and bucketization to model nonlinearities in different ways.

Contrast with deep model .

ширина

The number of neurons in a particular layer of a neural network .

мудрость толпы

#df

The idea that averaging the opinions or estimates of a large group of people ("the crowd") often produces surprisingly good results. For example, consider a game in which people guess the number of jelly beans packed into a large jar. Although most individual guesses will be inaccurate, the average of all the guesses has been empirically shown to be surprisingly close to the actual number of jelly beans in the jar.

Ensembles are a software analog of wisdom of the crowd. Even if individual models make wildly inaccurate predictions, averaging the predictions of many models often generates surprisingly good predictions. For example, although an individual decision tree might make poor predictions, a decision forest often makes very good predictions.

word embedding

#язык

Representing each word in a word set within an embedding vector ; that is, representing each word as a vector of floating-point values between 0.0 and 1.0. Words with similar meanings have more-similar representations than words with different meanings. For example, carrots , celery , and cucumbers would all have relatively similar representations, which would be very different from the representations of airplane , sunglasses , and toothpaste .

Х

XLA (Accelerated Linear Algebra)

An open-source machine learning compiler for GPUs, CPUs, and ML accelerators.

The XLA compiler takes models from popular ML frameworks such as PyTorch , TensorFlow , and JAX , and optimizes them for high-performance execution across different hardware platforms including GPUs, CPUs, and ML accelerators .

З

zero-shot learning

A type of machine learning training where the model infers a prediction for a task that it was not specifically already trained on. In other words, the model is given zero task-specific training examples but asked to do inference for that task.

zero-shot prompting

#язык
#генеративныйИИ

A prompt that does not provide an example of how you want the large language model to respond. Например:

Части одного подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Индия: Фактический запрос.

The large language model might respond with any of the following:

  • Рупия
  • индийская рупия
  • Indian rupee
  • The rupee
  • The Indian rupee

All of the answers are correct, though you might prefer a particular format.

Compare and contrast zero-shot prompting with the following terms:

Z-оценка нормализация

#fundamentals

Метод масштабирования , который заменяет необработанное значение функции со значением с плавающей точкой, представляющим количество стандартных отклонений от среднего значения этой функции. Например, рассмотрим функцию, среднее значение которого составляет 800, а стандартное отклонение которого составляет 100. В следующей таблице показано, как нормализация Z-показателя будет сопоставить необработанное значение с его Z-Score:

Сырая стоимость Z-Score
800 0
950 +1,5
575 -2,25

Затем модель машинного обучения тренируется на Z-оценках для этой функции, а не на необработанных значениях.

,

Этот глоссарий определяет термины машинного обучения.

А

абляция

Метод оценки важности функции или компонента путем временного удаления его из модели . Затем вы переобучаете модель без этой функции или компонента, и если переобученная модель работает значительно хуже, то удаленная функция или компонент, вероятно, были важны.

Например, предположим, что вы обучаете модель классификации на 10 признаках и достигаете точности 88 % на тестовом наборе . Чтобы проверить важность первой функции, вы можете переобучить модель, используя только девять других функций. Если переобученная модель работает значительно хуже (например, точность 55%), то удаленная функция, вероятно, была важна. И наоборот, если переобученная модель работает одинаково хорошо, то эта функция, вероятно, не так уж важна.

Абляция также может помочь определить важность:

  • Более крупные компоненты, например целая подсистема более крупной системы машинного обучения.
  • Процессы или методы, такие как этап предварительной обработки данных.

В обоих случаях вы увидите, как изменится (или не изменится) производительность системы после удаления компонента.

А/Б тестирование

Статистический способ сравнения двух (или более) методов — А и Б. Обычно A — это существующая технология, а B — новая технология. A/B-тестирование не только определяет, какой метод работает лучше, но также определяет, является ли разница статистически значимой.

A/B-тестирование обычно сравнивает одну метрику двух методов; например, как сравнивается точность модели для двух методов? Однако A/B-тестирование также позволяет сравнивать любое конечное число метрик.

чип-ускоритель

#GoogleCloud

Категория специализированных аппаратных компонентов, предназначенных для выполнения ключевых вычислений, необходимых для алгоритмов глубокого обучения.

Чипы-ускорители (или просто ускорители , для краткости) могут значительно повысить скорость и эффективность задач обучения и вывода по сравнению с ЦП общего назначения. Они идеально подходят для обучения нейронных сетей и аналогичных задач с интенсивными вычислениями.

Примеры чипов-ускорителей включают в себя:

  • Тензорные процессоры Google ( TPU ) со специальным оборудованием для глубокого обучения.
  • Графические процессоры NVIDIA, изначально предназначенные для обработки графики, предназначены для обеспечения параллельной обработки, что может значительно повысить скорость обработки.

точность

#основы

Количество правильных прогнозов классификации, разделенное на общее количество прогнозов. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация дает конкретные названия различным категориям правильных и неправильных прогнозов . Итак, формула точности бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

Сравните и сопоставьте точность с точностью и отзывом .

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.

действие

#рл

В обучении с подкреплением - механизм, с помощью которого агент переходит между состояниями окружающей среды . Агент выбирает действие, используя политику .

функция активации

#основы

Функция, которая позволяет нейронным сетям изучать нелинейные (сложные) связи между объектами и меткой.

Популярные функции активации включают в себя:

Графики функций активации никогда не представляют собой одиночные прямые линии. Например, график функции активации ReLU состоит из двух прямых:

Декартов график из двух линий. В первой строке есть константа           значение y, равное 0, вдоль оси X от -бесконечности,0 до 0,-0.           Вторая строка начинается с 0,0. Эта линия имеет наклон +1, поэтому           он работает от 0,0 до +бесконечности,+бесконечности.

График сигмовидной функции активации выглядит следующим образом:

Двумерный изогнутый график со значениями x, охватывающими область.           от -бесконечности до +положительного, а значения y охватывают диапазон от почти 0 до           почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда           положительный, с наибольшим наклоном 0,0,5 и постепенно уменьшающимся           наклоны по мере увеличения абсолютного значения x.

Дополнительную информацию см. в разделе «Нейронные сети: функции активации в ускоренном курсе машинного обучения».

активное обучение

Подход к обучению , при котором алгоритм выбирает некоторые данные, на которых он учится. Активное обучение особенно ценно, когда помеченные примеры редки или дороги. Вместо слепого поиска разнообразного диапазона помеченных примеров алгоритм активного обучения выборочно ищет конкретный диапазон примеров, необходимый для обучения.

АдаГрад

Сложный алгоритм градиентного спуска, который масштабирует градиенты каждого параметра , эффективно давая каждому параметру независимую скорость обучения . Полное объяснение можно найти в этой статье AdaGrad .

агент

#рл

В обучении с подкреплением - сущность, которая использует политику для максимизации ожидаемой отдачи , полученной от перехода между состояниями среды .

В более общем смысле, агент — это программное обеспечение, которое автономно планирует и выполняет ряд действий для достижения цели, имея возможность адаптироваться к изменениям в окружающей среде. Например, агент на основе LLM может использовать LLM для создания плана вместо применения политики обучения с подкреплением.

агломеративная кластеризация

#кластеризация

См. иерархическую кластеризацию .

обнаружение аномалий

Процесс выявления выбросов . Например, если среднее значение для определенного объекта равно 100 со стандартным отклонением 10, то обнаружение аномалий должно пометить значение 200 как подозрительное.

АР

Аббревиатура дополненной реальности .

площадь под кривой PR

См. PR AUC (площадь под кривой PR) .

площадь под кривой ROC

См. AUC (площадь под кривой ROC) .

общий искусственный интеллект

Нечеловеческий механизм, демонстрирующий широкий спектр решений проблем, креативность и адаптивность. Например, программа, демонстрирующая общий искусственный интеллект, могла бы переводить текст, сочинять симфонии и преуспевать в играх, которые еще не изобретены.

искусственный интеллект

#основы

Нечеловеческая программа или модель , способная решать сложные задачи. Например, программа или модель, которая переводит текст, или программа или модель, которая идентифицирует заболевания по радиологическим изображениям, обладают искусственным интеллектом.

Формально машинное обучение — это подобласть искусственного интеллекта. Однако в последние годы некоторые организации начали использовать термины «искусственный интеллект» и «машинное обучение» как синонимы.

внимание

#язык

Механизм, используемый в нейронной сети , который указывает важность определенного слова или части слова. Внимание сжимает объем информации, необходимой модели для прогнозирования следующего токена/слова. Типичный механизм внимания может состоять из взвешенной суммы по набору входных данных, где вес каждого входного сигнала вычисляется другой частью нейронной сети.

Обратитесь также к самовниманию и многоголовому самовниманию , которые являются строительными блоками Трансформеров .

См . LLM: Что такое большая языковая модель? в ускоренном курсе машинного обучения для получения дополнительной информации о самообслуживании.

атрибут

#справедливость

Синоним функции .

В рамках справедливости машинного обучения атрибуты часто относятся к характеристикам, относящимся к отдельным людям.

выборка атрибутов

#df

Тактика обучения леса решений , в которой каждое дерево решений учитывает только случайное подмножество возможных признаков при изучении условия . Обычно для каждого узла отбирается различное подмножество функций. Напротив, при обучении дерева решений без выборки атрибутов для каждого узла рассматриваются все возможные функции.

AUC (Площадь под кривой ROC)

#основы

Число от 0,0 до 1,0, обозначающее способность модели бинарной классификации отделять положительные классы от отрицательных классов . Чем ближе AUC к 1,0, тем лучше способность модели отделять классы друг от друга.

Например, на следующем рисунке показана модель классификатора, которая идеально отделяет положительные классы (зеленые овалы) от отрицательных классов (фиолетовые прямоугольники). Эта нереально идеальная модель имеет AUC 1,0:

Числовая линия с 8 положительными примерами на одной стороне и           9 негативных примеров с другой стороны.

И наоборот, на следующем рисунке показаны результаты для модели классификатора, которая генерировала случайные результаты. Эта модель имеет AUC 0,5:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров положительная, отрицательная,           положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный           отрицательный, положительный, отрицательный.

Да, предыдущая модель имеет AUC 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель несколько отделяет положительные значения от отрицательных и поэтому имеет AUC где-то между 0,5 и 1,0:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров отрицательная, отрицательная, отрицательная, отрицательная,           положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный,           положительный.

AUC игнорирует любые значения, установленные вами для порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

дополненная реальность

#изображение

Технология, которая накладывает изображение, созданное компьютером, на представление пользователя о реальном мире, создавая таким образом составное представление.

автоэнкодер

#язык
#изображение

Система, которая учится извлекать наиболее важную информацию из входных данных. Автоэнкодеры представляют собой комбинацию кодера и декодера . Автоэнкодеры полагаются на следующий двухэтапный процесс:

  1. Кодер преобразует входные данные в (обычно) низкоразмерный (промежуточный) формат с потерями.
  2. Декодер создает версию исходного ввода с потерями, сопоставляя формат меньшей размерности с исходным входным форматом более высокой размерности.

Автокодировщики обучаются сквозно, заставляя декодер пытаться как можно точнее восстановить исходный входной сигнал из промежуточного формата кодера. Поскольку промежуточный формат меньше (меньшая размерность), чем исходный формат, автокодировщику приходится узнавать, какая информация на входе важна, и выходные данные не будут полностью идентичны входным.

Например:

  • Если входные данные представляют собой графику, неточная копия будет похожа на исходную графику, но несколько изменена. Возможно, неточная копия удаляет шум из исходной графики или заполняет некоторые недостающие пиксели.
  • Если входные данные представляют собой текст, автокодировщик сгенерирует новый текст, который имитирует (но не идентичен) исходному тексту.

См. также вариационные автоэнкодеры .

автоматическая оценка

#язык
#генеративныйИИ

Использование программного обеспечения для оценки качества вывода модели.

Если выходные данные модели относительно просты, сценарий или программа могут сравнить выходные данные модели с золотым ответом . Этот тип автоматической оценки иногда называют программной оценкой . Такие показатели, как ROUGE или BLEU, часто полезны для программной оценки.

Если выходные данные модели сложны или не имеют единственного правильного ответа , отдельная программа машинного обучения, называемая авторейтером, иногда выполняет автоматическую оценку.

Контраст с человеческой оценкой .

предвзятость автоматизации

#справедливость

Когда человек, принимающий решения, предпочитает рекомендации автоматизированной системы принятия решений информации, полученной без автоматизации, даже если автоматизированная система принятия решений допускает ошибки.

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

АвтоМЛ

Любой автоматизированный процесс построения моделей машинного обучения . AutoML может автоматически выполнять такие задачи, как следующие:

AutoML полезен для специалистов по данным, поскольку может сэкономить им время и усилия при разработке конвейеров машинного обучения и повысить точность прогнозирования. Это также полезно для неспециалистов, поскольку делает сложные задачи машинного обучения более доступными для них.

Дополнительную информацию см. в разделе «Автоматическое машинное обучение (AutoML)» ускоренного курса машинного обучения.

авторейтерская оценка

#язык
#генеративныйИИ
Гибридный механизм оценки качества результатов генеративной модели ИИ , сочетающий человеческую оценку с автоматической оценкой . Авторрейтер — это модель машинного обучения, обученная на данных, полученных в результате оценки человеком . В идеале авторрейтер учится подражать оценщику-человеку.

Доступны готовые авторейтинги, но лучшие авторейтинги точно настроены специально для задачи, которую вы оцениваете.

авторегрессионная модель

#язык
#изображение
#генеративныйИИ

Модель , которая делает прогноз на основе собственных предыдущих прогнозов. Например, авторегрессионные языковые модели прогнозируют следующий токен на основе ранее предсказанных токенов. Все модели большого языка на основе Transformer являются авторегрессионными.

Напротив, модели изображений на основе GAN обычно не являются авторегрессионными, поскольку они генерируют изображение за один проход вперед, а не поэтапно итеративно. Однако некоторые модели генерации изображений являются авторегрессионными, поскольку они генерируют изображение поэтапно.

вспомогательная потеря

Функция потерь , используемая вместе с основной функцией потерь модели нейронной сети , которая помогает ускорить обучение на ранних итерациях, когда веса инициализируются случайным образом.

Вспомогательные функции потерь перемещают эффективные градиенты на более ранние слои . Это облегчает сходимость во время обучения , решая проблему исчезновения градиента .

средняя точность при k

#язык

Метрика для подведения итогов эффективности модели в одном запросе, который генерирует ранжированные результаты, например нумерованный список рекомендаций по книгам. Средняя точность при k — это среднее значение точности при значениях k для каждого соответствующего результата. Таким образом, формула средней точности при k выглядит следующим образом:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

где:

  • \(n\) — количество соответствующих элементов в списке.

Сравните с отзывом в k .

условие совмещения осей

#df

В дереве решений - условие , включающее только один признак . Например, если area является объектом, то условием выравнивания по оси является следующее:

area > 200

Сравните с наклонным состоянием .

Б

обратное распространение ошибки

#основы

Алгоритм, реализующий градиентный спуск в нейронных сетях .

Обучение нейронной сети включает в себя множество итераций следующего двухпроходного цикла:

  1. Во время прямого прохода система обрабатывает пакет примеров для получения прогнозов. Система сравнивает каждый прогноз с каждым значением метки . Разница между прогнозом и значением метки — это потеря для этого примера. Система суммирует потери для всех примеров, чтобы вычислить общие потери для текущей партии.
  2. Во время обратного прохода (обратного распространения ошибки) система уменьшает потери, корректируя веса всех нейронов во всех скрытых слоях .

Нейронные сети часто содержат множество нейронов во многих скрытых слоях. Каждый из этих нейронов по-разному вносит свой вклад в общую потерю. Обратное распространение ошибки определяет, следует ли увеличивать или уменьшать веса, применяемые к конкретным нейронам.

Скорость обучения — это множитель, который контролирует степень увеличения или уменьшения каждого веса при каждом обратном проходе. Большая скорость обучения будет увеличивать или уменьшать каждый вес больше, чем низкая скорость обучения.

С точки зрения исчисления, обратное распространение ошибки реализует правило цепочки . из исчисления. То есть обратное распространение ошибки вычисляет частную производную ошибки по каждому параметру.

Несколько лет назад специалистам по машинному обучению приходилось писать код для реализации обратного распространения ошибки. Современные API машинного обучения, такие как Keras, теперь реализуют обратное распространение ошибки. Уф!

Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».

упаковка в мешки

#df

Метод обучения ансамбля , при котором каждая составляющая модель обучается на случайном подмножестве обучающих примеров, выбранных с заменой . Например, случайный лес — это набор деревьев решений, обученных с помощью мешков.

Термин «бэггинг» является сокращением от бутстрап - агрегирования .

Дополнительную информацию см. в разделе «Случайные леса » курса «Леса решений».

мешок слов

#язык

Представление слов во фразе или отрывке независимо от порядка. Например, мешок слов одинаково представляет следующие три фразы:

  • собака прыгает
  • прыгает на собаку
  • собака прыгает

Каждое слово сопоставляется с индексом в разреженном векторе , где вектор имеет индекс для каждого слова в словаре. Например, фраза «собака прыгает» отображается в вектор признаков с ненулевыми значениями по трем индексам, соответствующим словам « собака» и «прыжки» . Ненулевое значение может быть любым из следующих:

  • 1 указывает на наличие слова.
  • Подсчет количества раз, когда слово появляется в сумке. Например, если фраза «бордовая собака» — это собака с бордовой шерстью , то и «бордовый» , и «собака» будут представлены как 2, а другие слова будут представлены как 1.
  • Некоторое другое значение, например логарифм количества раз, которое слово появляется в сумке.

базовый уровень

Модель, используемая в качестве ориентира для сравнения эффективности другой модели (обычно более сложной). Например, модель логистической регрессии может служить хорошей основой для глубокой модели .

Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно определить минимальную ожидаемую производительность, которую должна достичь новая модель, чтобы новая модель была полезной.

партия

#основы

Набор примеров, используемых в одной обучающей итерации . Размер партии определяет количество примеров в партии.

См. «Эпоха» для объяснения того, как партия связана с эпохой.

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

пакетный вывод

#TensorFlow
#GoogleCloud

Процесс вывода прогнозов на нескольких немаркированных примерах, разделенных на более мелкие подмножества («партии»).

Пакетный вывод может использовать возможности распараллеливания микросхем-ускорителей . То есть несколько ускорителей могут одновременно делать прогнозы на разных пакетах немаркированных примеров, что значительно увеличивает количество выводов в секунду.

Дополнительные сведения см. в разделе «Производственные системы ML: статический и динамический вывод» в ускоренном курсе машинного обучения.

пакетная нормализация

Нормализация ввода или вывода функций активации в скрытом слое . Пакетная нормализация может дать следующие преимущества:

размер партии

#основы

Количество примеров в пакете . Например, если размер пакета равен 100, модель обрабатывает 100 примеров за итерацию .

Ниже приведены популярные стратегии размера партии:

  • Стохастический градиентный спуск (SGD) , в котором размер пакета равен 1.
  • Полный пакет, в котором размер пакета — это количество примеров во всем обучающем наборе . Например, если обучающий набор содержит миллион примеров, то размер пакета будет составлять миллион примеров. Полная партия обычно является неэффективной стратегией.
  • Мини-пакет , размер которого обычно составляет от 10 до 1000. Мини-пакет обычно является наиболее эффективной стратегией.

Для получения дополнительной информации см. следующее:

Байесовская нейронная сеть

Вероятностная нейронная сеть , которая учитывает неопределенность в весах и выходных данных. Стандартная модель регрессии нейронной сети обычно предсказывает скалярное значение; например, стандартная модель прогнозирует цену дома в 853 000 долларов. Напротив, байесовская нейронная сеть предсказывает распределение значений; например, байесовская модель предсказывает цену дома в размере 853 000 со стандартным отклонением 67 200.

Байесовская нейронная сеть опирается на теорему Байеса для расчета неопределенностей в весах и прогнозах. Байесовская нейронная сеть может быть полезна, когда важно количественно оценить неопределенность, например, в моделях, связанных с фармацевтическими препаратами. Байесовские нейронные сети также могут помочь предотвратить переобучение .

Байесовская оптимизация

Метод вероятностной регрессионной модели для оптимизации дорогостоящих в вычислительном отношении целевых функций путем оптимизации суррогатной функции, которая количественно определяет неопределенность с использованием метода байесовского обучения. Поскольку байесовская оптимизация сама по себе очень дорога, ее обычно используют для оптимизации дорогостоящих в оценке задач с небольшим количеством параметров, таких как выбор гиперпараметров .

уравнение Беллмана

#рл

При обучении с подкреплением оптимальная Q-функция удовлетворяет следующему тождеству:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Алгоритмы обучения с подкреплением применяют эту идентичность для создания Q-обучения с помощью следующего правила обновления:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Помимо обучения с подкреплением, уравнение Беллмана находит применение в динамическом программировании. См . статью в Википедии об уравнении Беллмана .

BERT (представления двунаправленного кодировщика от трансформаторов)

#язык

Архитектура модели для представления текста. Обученная модель BERT может действовать как часть более крупной модели для классификации текста или других задач машинного обучения.

BERT имеет следующие характеристики:

Варианты BERT включают:

Обзор BERT см. в разделе «Открытый исходный код BERT: современное предварительное обучение обработке естественного языка» .

предвзятость (этика/справедливость)

#справедливость
#основы

1. Стереотипы, предрассудки или фаворитизм в отношении одних вещей, людей или групп по сравнению с другими. Эти предубеждения могут повлиять на сбор и интерпретацию данных, дизайн системы и то, как пользователи взаимодействуют с системой. К формам этого типа предвзятости относятся:

2. Систематическая ошибка, вызванная процедурой выборки или отчетности. К формам этого типа предвзятости относятся:

Не путать с термином «предвзятость» в моделях машинного обучения или «предвзятость прогнозирования» .

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

предвзятость (математика) или термин предвзятости

#основы

Перехват или смещение от начала координат. Смещение — это параметр в моделях машинного обучения, который обозначается одним из следующих символов:

  • б
  • ш 0

Например, смещение — это буква b в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

В простой двумерной линии смещение означает просто «пересечение оси Y». Например, смещение линии на следующем рисунке равно 2.

График линии с наклоном 0,5 и смещением (пересечение оси Y) 2.

Смещение существует, потому что не все модели начинаются с начала координат (0,0). Например, предположим, что вход в парк развлечений стоит 2 евро и дополнительно 0,5 евро за каждый час пребывания клиента. Следовательно, модель, отображающая общую стоимость, имеет смещение 2, поскольку минимальная стоимость составляет 2 евро.

Предвзятость не следует путать с предвзятостью в вопросах этики и справедливости или предвзятостью прогнозирования .

Дополнительную информацию см. в разделе «Линейная регрессия в ускоренном курсе машинного обучения».

двунаправленный

#язык

Термин, используемый для описания системы, которая оценивает текст, который предшествует и следует за целевым разделом текста. Напротив, однонаправленная система оценивает только текст, который предшествует целевому разделу текста.

Например, рассмотрим модель языка в масках , которая должна определять вероятности для слова или слов, представляющих подчеркивание в следующем вопросе:

Что с тобой _____?

Однонаправленная языковая модель должна была бы основывать свои вероятности только на контексте, обеспечиваемом словами «Что», «есть» и «the». Напротив, двунаправленная языковая модель также может получить контекст от слов «с» и «вы», что может помочь модели генерировать более качественные прогнозы.

двунаправленная языковая модель

#язык

Языковая модель , определяющая вероятность присутствия данного токена в заданном месте во фрагменте текста на основе предыдущего и последующего текста.

биграмма

#seq
#язык

N-грамма, в которой N=2.

бинарная классификация

#основы

Тип задачи классификации , которая прогнозирует один из двух взаимоисключающих классов:

Например, каждая из следующих двух моделей машинного обучения выполняет двоичную классификацию:

  • Модель, определяющая, являются ли сообщения электронной почты спамом (положительный класс) или нет (негативный класс).
  • Модель, которая оценивает медицинские симптомы, чтобы определить, есть ли у человека определенное заболевание (положительный класс) или нет этого заболевания (негативный класс).

Сравните с многоклассовой классификацией .

См. также логистическую регрессию и порог классификации .

Дополнительную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

двоичное состояние

#df

В дереве решенийусловие , имеющее только два возможных результата, обычно «да» или «нет» . Например, следующее двоичное условие:

temperature >= 100

Сравните с небинарным состоянием .

Дополнительные сведения см. в разделе «Типы условий» курса «Леса решений».

группирование

Синоним квитирования .

BLEU (дублёр двуязычной оценки)

#язык

Метрика от 0,0 до 1,0 для оценки машинного перевода , например, с испанского на японский.

Для расчета оценки BLEU обычно сравнивает перевод модели ML ( сгенерированный текст ) с переводом эксперта ( справочный текст ). Степень соответствия N-грамм в сгенерированном тексте и тексте ссылки определяет оценку BLEU.

Оригинальная статья по этой метрике — BLEU: метод автоматической оценки машинного перевода .

См. также БЛЕРТ .

БЛЕУРТ (дублёр двуязычной оценки из «Трансформеров»)

#язык

Метрика для оценки машинного перевода с одного языка на другой, особенно на английский и с английского.

Для переводов на английский и с английского язык BLEURT более точно соответствует человеческим рейтингам, чем BLEU . В отличие от BLEU, BLEURT подчеркивает семантическое (значительное) сходство и допускает перефразирование.

BLEURT опирается на предварительно обученную модель большого языка (точнее, BERT ), которая затем настраивается на текст, полученный от переводчиков-людей.

Оригинальная статья по этой метрике — BLEURT: Learning Robust Metrics for Text Generation .

повышение

Метод машинного обучения, который итеративно объединяет набор простых и не очень точных классификаторов (называемых «слабыми» классификаторами) в классификатор с высокой точностью («сильный» классификатор) путем увеличения веса примеров, которые модель в данный момент неправильно классифицирует.

Видите деревья решений с градиентным усилением? в курсе «Леса решений» для получения дополнительной информации.

ограничивающая рамка

#изображение

На изображении координаты ( x , y ) прямоугольника вокруг интересующей области, например собаки на изображении ниже.

Фотография собаки, сидящей на диване. Зеленая ограничивающая рамка           с координатами вверху слева (275, 1271) и внизу справа           координаты (2954, 2761) описывают тело собаки

вещание

Расширение формы операнда в матричной математической операции до размеров , совместимых для этой операции. Например, линейная алгебра требует, чтобы два операнда в операции сложения матриц имели одинаковые размерности. Следовательно, вы не можете добавить матрицу формы (m, n) к вектору длины n. Широковещательная рассылка позволяет выполнить эту операцию, виртуально расширяя вектор длины n до матрицы формы (m, n), реплицируя одни и те же значения в каждом столбце.

Например, учитывая следующие определения, линейная алгебра запрещает A+B, поскольку A и B имеют разные размерности:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Однако широковещание позволяет осуществлять операцию A+B, виртуально расширяя B до:

 [[2, 2, 2],
  [2, 2, 2]]

Таким образом, A+B теперь является допустимой операцией:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Более подробную информацию смотрите в следующем описании трансляции в NumPy .

группирование

#основы

Преобразование одного объекта в несколько двоичных объектов, называемых сегментами или контейнерами , обычно на основе диапазона значений. Вырезанный объект обычно является непрерывным объектом .

Например, вместо того, чтобы представлять температуру как один непрерывный признак с плавающей запятой, вы можете разбить диапазоны температур на отдельные сегменты, например:

  • <= 10 градусов по Цельсию будет «холодным» ведром.
  • 11–24 градуса по Цельсию будет «умеренным» ведром.
  • >= 25 градусов по Цельсию будет «теплым» ведром.

Модель будет обрабатывать каждое значение в одном и том же сегменте одинаково. Например, значения 13 и 22 относятся к сегменту умеренного климата, поэтому модель обрабатывает эти два значения одинаково.

Дополнительные сведения см. в разделе «Численные данные: группирование в ускоренном курсе машинного обучения».

С

калибровочный слой

Корректировка после прогнозирования, обычно для учета систематической ошибки прогноза . Скорректированные прогнозы и вероятности должны соответствовать распределению наблюдаемого набора меток.

поколение кандидатов

#recsystems

Начальный набор рекомендаций, выбранный рекомендательной системой . Например, рассмотрим книжный магазин, предлагающий 100 000 наименований. На этапе генерации кандидатов создается гораздо меньший список подходящих книг для конкретного пользователя, скажем, 500. Но даже 500 книг — это слишком много, чтобы рекомендовать пользователю. Последующие, более дорогостоящие этапы системы рекомендаций (такие как выставление оценок и изменение рейтинга ) сводят эти 500 к гораздо меньшему и более полезному набору рекомендаций.

Дополнительную информацию см. в разделе «Обзор генерации кандидатов» в курсе «Системы рекомендаций».

выборка кандидатов

Оптимизация времени обучения, которая вычисляет вероятность для всех положительных меток, используя, например, softmax , но только для случайной выборки отрицательных меток. Например, для примера, помеченного как «бигль» и «собака» , выборка кандидатов вычисляет прогнозируемые вероятности и соответствующие условия потерь для:

  • бигль
  • собака
  • случайное подмножество оставшихся отрицательных классов (например, кот , леденец , забор ).

Идея состоит в том, что негативные классы могут учиться на менее частом негативном подкреплении, пока позитивные классы всегда получают правильное положительное подкрепление, и это действительно наблюдается эмпирически.

Кандидатская выборка более эффективна в вычислительном отношении, чем алгоритмы обучения, которые вычисляют прогнозы для всех отрицательных классов, особенно когда количество отрицательных классов очень велико.

категориальные данные

#основы

Функции, имеющие определенный набор возможных значений. Например, рассмотрим категориальную функцию под названием traffic-light-state , которая может иметь только одно из следующих трех возможных значений:

  • red
  • yellow
  • green

Представляя traffic-light-state как категориальную характеристику, модель может изучить различное влияние red , green и yellow на поведение водителя.

Категориальные признаки иногда называют дискретными признаками .

Сравните с числовыми данными .

Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе машинного обучения.

причинно-языковая модель

#язык

Синоним однонаправленной языковой модели .

См. двунаправленную языковую модель , чтобы сравнить различные направленные подходы к языковому моделированию.

центроид

#кластеризация

Центр кластера, определенный алгоритмом k-средних или k-медианы . Например, если k равно 3, то алгоритм k-средних или k-медианы находит 3 центроида.

Дополнительную информацию см. в разделе «Алгоритмы кластеризации» в курсе «Кластеризация».

кластеризация на основе центроидов

#кластеризация

Категория алгоритмов кластеризации , которая организует данные в неиерархические кластеры. k-means — наиболее широко используемый алгоритм кластеризации на основе центроидов.

В отличие от алгоритмов иерархической кластеризации .

Дополнительную информацию см. в разделе «Алгоритмы кластеризации» в курсе «Кластеризация».

подсказка по цепочке мыслей

#язык
#генеративныйИИ

Метод быстрого проектирования , который побуждает большую языковую модель (LLM) шаг за шагом объяснять свои рассуждения. Например, рассмотрите следующую подсказку, уделив особое внимание второму предложению:

Какую силу перегрузки испытает водитель автомобиля, разгоняющегося от 0 до 60 миль в час за 7 секунд? В ответе покажите все соответствующие расчеты.

Ответ LLM, скорее всего, будет следующим:

  • Покажите последовательность физических формул, вставив в соответствующие места значения 0, 60 и 7.
  • Объясните, почему он выбрал именно эти формулы и что означают различные переменные.

Подсказки по цепочке мыслей заставляют LLM выполнять все вычисления, которые могут привести к более правильному ответу. Кроме того, подсказки по цепочке мыслей позволяют пользователю изучить шаги LLM, чтобы определить, имеет ли ответ смысл.

чат

#язык
#генеративныйИИ

Содержимое двустороннего диалога с системой машинного обучения, обычно это большая языковая модель . Предыдущее взаимодействие в чате (то, что вы набрали и как ответила большая языковая модель) становится контекстом для последующих частей чата.

Чат-бот — это приложение большой языковой модели.

контрольно-пропускной пункт

Данные, которые фиксируют состояние параметров модели во время обучения или после его завершения. Например, во время обучения вы можете:

  1. Прекратите обучение, возможно, намеренно, а возможно, в результате определенных ошибок.
  2. Захват контрольно-пропускного пункта.
  3. Позже перезагрузите КПП, возможно на другом оборудовании.
  4. Возобновить обучение.

сорт

#основы

Категория, к которой может принадлежать метка . Например:

Модель классификации предсказывает класс. Напротив, регрессионная модель предсказывает число, а не класс.

Дополнительную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

модель классификации

#основы

Модель , предсказание которой является классом . Например, ниже приведены все модели классификации:

  • Модель, которая предсказывает язык входного предложения (французский? испанский? итальянский?).
  • Модель, предсказывающая породы деревьев (клен? дуб? баобаб?).
  • Модель, которая прогнозирует положительный или отрицательный класс конкретного заболевания.

Напротив, регрессионные модели предсказывают числа, а не классы.

Два распространенных типа классификационных моделей:

порог классификации

#основы

В двоичной классификации - число от 0 до 1, которое преобразует необработанные выходные данные модели логистической регрессии в прогноз либо положительного , либо отрицательного класса . Обратите внимание, что порог классификации — это значение, которое выбирает человек, а не значение, выбранное при обучении модели.

Модель логистической регрессии выводит необработанное значение от 0 до 1. Затем:

  • Если это необработанное значение превышает порог классификации, то прогнозируется положительный класс.
  • Если это необработанное значение меньше порога классификации, то прогнозируется отрицательный класс.

Например, предположим, что порог классификации равен 0,8. Если исходное значение равно 0,9, модель прогнозирует положительный класс. Если исходное значение равно 0,7, то модель прогнозирует отрицательный класс.

Выбор порога классификации сильно влияет на количество ложноположительных и ложноотрицательных результатов .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

несбалансированный по классам набор данных

#основы

Набор данных для задачи классификации, в которой общее количество меток каждого класса значительно различается. Например, рассмотрим набор данных двоичной классификации, две метки которого разделены следующим образом:

  • 1 000 000 негативных ярлыков
  • 10 положительных ярлыков

Соотношение отрицательных и положительных меток составляет 100 000 к 1, поэтому это набор данных с несбалансированным классом.

Напротив, следующий набор данных не является несбалансированным по классам, поскольку соотношение отрицательных меток к положительным меткам относительно близко к 1:

  • 517 отрицательных ярлыков
  • 483 положительных метки

Многоклассовые наборы данных также могут быть несбалансированными по классам. Например, следующий набор данных многоклассовой классификации также несбалансирован по классам, поскольку одна метка содержит гораздо больше примеров, чем две другие:

  • 1 000 000 этикеток класса «зеленый»
  • 200 этикеток класса «фиолетовый».
  • 350 этикеток класса «оранжевый».

См. также энтропию , класс большинства и класс меньшинства .

вырезка

#основы

Техника обработки выбросов путем выполнения одного или обоих следующих действий:

  • Уменьшение значений функций , превышающих максимальный порог, до этого максимального порога.
  • Увеличение значений функций, которые меньше минимального порога, до этого минимального порога.

Например, предположим, что <0,5% значений определенного признака выходят за пределы диапазона 40–60. В этом случае вы можете сделать следующее:

  • Обрежьте все значения выше 60 (максимальный порог), чтобы они составляли ровно 60.
  • Обрежьте все значения ниже 40 (минимальный порог), чтобы они составляли ровно 40.

Выбросы могут повредить модели, иногда вызывая переполнение весов во время обучения. Некоторые выбросы также могут существенно испортить такие показатели, как точность . Обрезка — распространенный метод ограничения ущерба.

Отсечение градиента приводит к тому, что значения градиента находятся в пределах заданного диапазона во время обучения.

Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».

Облачный ТПУ

#TensorFlow
#GoogleCloud

Специализированный аппаратный ускоритель, предназначенный для ускорения рабочих нагрузок машинного обучения в Google Cloud.

кластеризация

#кластеризация

Группировка связанных примеров , особенно во время обучения без учителя . После того как все примеры сгруппированы, человек может при желании придать смысл каждому кластеру.

Существует множество алгоритмов кластеризации. Например, алгоритм k-средних кластеризует примеры на основе их близости к центроиду , как показано на следующей диаграмме:

Двумерный график, на оси X отмечена ширина дерева.           а ось Y обозначает высоту дерева. График содержит два           центроиды и несколько десятков точек данных. Точки данных           классифицируются в зависимости от их близости. То есть точки данных           ближайшие к одному центроиду относятся к кластеру 1, а те, которые находятся ближе всего к одному центроиду, относятся к кластеру 1, а те, которые           ближайшие к другому центроиду классифицируются как кластер 2.

Затем исследователь-человек может просмотреть кластеры и, например, обозначить кластер 1 как «карликовые деревья», а кластер 2 — как «полноразмерные деревья».

В качестве другого примера рассмотрим алгоритм кластеризации, основанный на расстоянии примера от центральной точки, проиллюстрированный следующим образом:

Десятки точек данных расположены концентрическими кругами, почти           как дырки вокруг центра дартса. Самое внутреннее кольцо           точек данных относится к кластеру 1, среднему кольцу           классифицируется как кластер 2, а самое внешнее кольцо — как           кластер 3.

Дополнительную информацию смотрите в курсе «Кластеризация» .

совместная адаптация

Когда нейроны предсказывают закономерности в обучающих данных, полагаясь почти исключительно на выходные данные конкретных других нейронов, а не на поведение сети в целом. Когда шаблоны, вызывающие совместную адаптацию, отсутствуют в данных проверки, совместная адаптация вызывает переобучение. Регуляризация выпадения снижает коадаптацию, поскольку выпадение гарантирует, что нейроны не могут полагаться исключительно на другие конкретные нейроны.

совместная фильтрация

#recsystems

Прогнозирование интересов одного пользователя на основе интересов множества других пользователей. Совместная фильтрация часто используется в рекомендательных системах .

Дополнительную информацию см. в разделе «Совместная фильтрация» курса «Системы рекомендаций».

дрейф концепции

Изменение отношений между функциями и этикеткой. Со временем дрейф концепции снижает качество модели.

Во время обучения модель изучает взаимосвязь между функциями и их метками в обучающем наборе. Если метки в обучающем наборе являются хорошими представителями реального мира, то модель должна делать хорошие прогнозы реального мира. Однако из-за дрейфа концепций прогнозы модели имеют тенденцию со временем ухудшаться.

Например, рассмотрим модель бинарной классификации , которая предсказывает, является ли определенная модель автомобиля «экономичной по расходу топлива». То есть функциями могут быть:

  • вес автомобиля
  • компрессия двигателя
  • тип передачи

в то время как метка либо:

  • экономичный
  • не экономичный

Однако понятие «топливосберегающий автомобиль» продолжает меняться. Модель автомобиля, отмеченная как экономичная в 1994 году, почти наверняка будет отмечена как неэффективная в 2024 году. Модель, страдающая от концептуального дрейфа, имеет тенденцию со временем давать все менее и менее полезные прогнозы.

Сравните и противопоставьте нестационарности .

состояние

#df

В дереве решений — любой узел , вычисляющий выражение. Например, следующая часть дерева решений содержит два условия:

Дерево решений, состоящее из двух условий: (x > 0) и           (у > 0).

Условие также называется разделением или проверкой.

Контрастное состояние с листом .

См. также:

Дополнительные сведения см. в разделе «Типы условий» курса «Леса решений».

болтовня

#язык

Синоним галлюцинации .

Конфабуляция, вероятно, более технически точный термин, чем галлюцинация. Однако первой популярностью стали пользоваться галлюцинации.

конфигурация

Процесс присвоения начальных значений свойств, используемых для обучения модели, включая:

В проектах машинного обучения настройку можно выполнить с помощью специального файла конфигурации или с помощью библиотек конфигурации, таких как следующие:

предвзятость подтверждения

#справедливость

Тенденция искать, интерпретировать, отдавать предпочтение и вспоминать информацию таким образом, чтобы подтвердить ранее существовавшие убеждения или гипотезы. Разработчики машинного обучения могут непреднамеренно собирать или маркировать данные таким образом, что это повлияет на результат, подтверждающий их существующие убеждения. Предвзятость подтверждения — это форма неявной предвзятости .

Предвзятость экспериментатора — это форма предвзятости подтверждения, при которой экспериментатор продолжает обучение моделей до тех пор, пока не подтвердится ранее существовавшая гипотеза.

матрица путаницы

#основы

Таблица NxN, в которой суммируется количество правильных и неправильных прогнозов, сделанных моделью классификации . Например, рассмотрим следующую матрицу путаницы для модели двоичной классификации :

Опухоль (прогнозируемая) Неопухолевый (прогнозируемый)
Опухоль (основная правда) 18 (ТП) 1 (ФН)
Не опухоль (основная правда) 6 (ФП) 452 (Теннесси)

Предыдущая матрица путаницы показывает следующее:

  • Из 19 прогнозов, в которых основной истиной была опухоль, модель правильно классифицировала 18 и неправильно классифицировала 1.
  • Из 458 прогнозов, в которых основной истиной было отсутствие опухоли, модель правильно классифицировала 452 и неправильно классифицировала 6.

Матрица путаницы для задачи классификации нескольких классов может помочь вам выявить закономерности ошибок. Например, рассмотрим следующую матрицу путаницы для трехклассовой многоклассовой модели классификации, которая классифицирует три разных типа радужной оболочки (Virginica, Versicolor и Setosa). Когда основной истиной была Вирджиния, матрица путаницы показывает, что модель с гораздо большей вероятностью ошибочно предсказывала Версиколор, чем Сетозу:

Сетоза (прогноз) Разноцветный (предсказано) Вирджиния (прогнозируется)
Сетоза (основная правда) 88 12 0
Версиколор (основная правда) 6 141 7
Вирджиния (основная правда) 2 27 109

Еще один пример: матрица путаницы может показать, что модель, обученная распознавать рукописные цифры, имеет тенденцию ошибочно предсказывать 9 вместо 4 или ошибочно предсказывать 1 вместо 7.

Матрицы ошибок содержат достаточно информации для расчета различных показателей производительности, включая точность и полноту .

анализ избирательного округа

#язык

Деление предложения на более мелкие грамматические конструкции («составные»). Более поздняя часть системы машинного обучения, такая как модель понимания естественного языка , может анализировать составляющие легче, чем исходное предложение. Например, рассмотрим следующее предложение:

Мой друг взял двух кошек.

Анализатор избирательного округа может разделить это предложение на следующие две составляющие:

  • Мой друг — существительное.
  • усыновил двух кошек — это глагольная фраза.

Эти составляющие можно разделить на более мелкие составляющие. Например, глагольная группа

взял двух кошек

можно дополнительно разделить на:

  • принято – это глагол.
  • две кошки — еще одна существительная группа.

контекстуализированное языковое встраивание

#язык
#генеративныйИИ

Встраивание , близкое к «пониманию» слов и фраз так, как это могут делать носители языка. Контекстуализированные языковые внедрения могут понимать сложный синтаксис, семантику и контекст.

Например, рассмотрим встраивание английского слова «cow» . Старые внедрения, такие как word2vec, могут представлять английские слова таким образом, что расстояние в пространстве встраивания от коровы до быка аналогично расстоянию от овцы (овцы-самки) до барана (овцы-самцы) или от самки до самца . Контекстуализированные языковые встраивания могут пойти еще дальше, признав, что носители английского языка иногда случайно используют слово « корова» для обозначения либо коровы, либо быка.

контекстное окно

#язык
#генеративныйИИ

Количество токенов, которые модель может обработать в заданном приглашении . Чем больше контекстное окно, тем больше информации модель может использовать для предоставления последовательных и последовательных ответов на запрос.

непрерывный объект

#основы

Функция с плавающей запятой с бесконечным диапазоном возможных значений, таких как температура или вес.

Контраст с дискретной функцией .

удобство отбора проб

Использование набора данных, не собранного с научной точки зрения, для проведения быстрых экспериментов. Позже необходимо переключиться на научно собранный набор данных.

конвергенция

#основы

Состояние, при котором значения потерь изменяются очень незначительно или вообще не меняются на каждой итерации . Например, следующая кривая потерь предполагает сходимость примерно через 700 итераций:

Картезианский сюжет. Ось X — потери. Ось Y — количество тренировок           итерации. Потери очень велики в течение первых нескольких итераций, но           резко падает. Примерно после 100 итераций потери все еще           нисходящее, но гораздо более постепенное. Примерно после 700 итераций           потери остаются неизменными.

Модель сходится , когда дополнительное обучение не улучшает ее.

При глубоком обучении значения потерь иногда остаются постоянными или почти постоянными в течение многих итераций, прежде чем, наконец, упасть. В течение длительного периода постоянных значений потерь у вас может временно возникнуть ложное ощущение конвергенции.

См. также раннюю остановку .

Дополнительные сведения см. в разделе Кривые сходимости и потерь модели в ускоренном курсе машинного обучения.

выпуклая функция

Функция, у которой область над графиком функции представляет собой выпуклое множество . Прототип выпуклой функции имеет форму буквы U. Например, все следующие выпуклые функции:

U-образные кривые, каждая с одной точкой минимума.

Напротив, следующая функция не является выпуклой. Обратите внимание, что область над графиком не является выпуклым множеством:

W-образная кривая с двумя разными точками локального минимума.

Строго выпуклая функция имеет ровно одну точку локального минимума, которая также является точкой глобального минимума. Классические U-образные функции являются строго выпуклыми функциями. Однако некоторые выпуклые функции (например, прямые) не имеют U-образной формы.

Дополнительную информацию см. в разделе «Сходимость и выпуклые функции» в ускоренном курсе машинного обучения.

выпуклая оптимизация

Процесс использования математических методов, таких как градиентный спуск, для нахождения минимума выпуклой функции . Многие исследования в области машинного обучения были сосредоточены на формулировании различных задач в виде задач выпуклой оптимизации и более эффективном решении этих проблем.

Для получения полной информации см. Boyd and Vandenberghe, Convex Optimization .

выпуклое множество

Подмножество евклидова пространства, в котором линия, проведенная между любыми двумя точками этого подмножества, полностью остается внутри этого подмножества. Например, следующие две фигуры являются выпуклыми множествами:

Одна иллюстрация прямоугольника. Еще одна иллюстрация овала.

Напротив, следующие две фигуры не являются выпуклыми множествами:

Одна иллюстрация круговой диаграммы с отсутствующим фрагментом.           Еще одна иллюстрация крайне неправильного многоугольника.

свертка

#изображение

В математике, условно говоря, смесь двух функций. В машинном обучении свертка смешивает сверточный фильтр и входную матрицу для обучения весов .

Термин «свертка» в машинном обучении часто является сокращением для обозначения сверточной операции или сверточного слоя .

Без сверток алгоритму машинного обучения пришлось бы изучать отдельный вес для каждой ячейки в большом тензоре . Например, алгоритм машинного обучения, обучающийся на изображениях размером 2K x 2K, будет вынужден найти 4M отдельных весов. Благодаря сверткам алгоритму машинного обучения достаточно найти веса для каждой ячейки в сверточном фильтре , что значительно сокращает объем памяти, необходимой для обучения модели. Когда применяется сверточный фильтр, он просто реплицируется по ячейкам, так что каждая из них умножается на фильтр.

Дополнительную информацию см. в разделе «Введение в сверточные нейронные сети» в курсе «Классификация изображений».

сверточный фильтр

#изображение

Один из двух участников сверточной операции . (Другой актер — это часть входной матрицы.) Сверточный фильтр — это матрица того же ранга , что и входная матрица, но меньшей формы. Например, для входной матрицы размером 28x28 фильтром может быть любая двумерная матрица размером меньше 28x28.

При фотографических манипуляциях для всех ячеек сверточного фильтра обычно устанавливается постоянный набор единиц и нулей. В машинном обучении сверточные фильтры обычно заполняют случайными числами, а затем сеть обучает идеальные значения.

Дополнительную информацию см. в разделе «Свертка» в курсе «Классификация изображений».

сверточный слой

#изображение

Слой глубокой нейронной сети , в котором сверточный фильтр проходит по входной матрице. Например, рассмотрим следующий сверточный фильтр 3x3:

Матрица 3x3 со следующими значениями: [[0,1,0], [1,0,1], [0,1,0]]

Следующая анимация показывает сверточный слой, состоящий из 9 сверточных операций с входной матрицей 5x5. Обратите внимание, что каждая сверточная операция работает с отдельным фрагментом входной матрицы размером 3x3. Полученная матрица 3x3 (справа) состоит из результатов 9 сверточных операций:

Анимация, показывающая две матрицы. Первая матрица — 5х5.           матрица: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].           Вторая матрица — это матрица 3х3:           [[181 303 618], [115 338 605], [169 351 560]].           Вторая матрица вычисляется путем применения сверточного метода           фильтровать [[0, 1, 0], [1, 0, 1], [0, 1, 0]] по           различные подмножества 3x3 матрицы 5x5.

Дополнительную информацию см. в разделе «Полностью связанные слои» курса «Классификация изображений».

сверточная нейронная сеть

#изображение

Нейронная сеть , в которой хотя бы один слой является сверточным . Типичная сверточная нейронная сеть состоит из некоторой комбинации следующих слоев:

Сверточные нейронные сети добились больших успехов в решении определенных задач, таких как распознавание изображений.

сверточная операция

#изображение

Следующая двухэтапная математическая операция:

  1. Поэлементное умножение сверточного фильтра и среза входной матрицы. (Срез входной матрицы имеет тот же ранг и размер, что и сверточный фильтр.)
  2. Суммирование всех значений в результирующей матрице продуктов.

Например, рассмотрим следующую входную матрицу 5x5:

Матрица 5x5: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Теперь представьте себе следующий сверточный фильтр 2x2:

Матрица 2x2: [[1, 0], [0, 1]]

Каждая сверточная операция включает в себя один срез входной матрицы размером 2x2. Например, предположим, что мы используем срез 2x2 в верхнем левом углу входной матрицы. Итак, операция свертки на этом срезе выглядит следующим образом:

Применение сверточного фильтра [[1, 0], [0, 1]] в верхнем левом углу           Раздел входной матрицы размером 2x2, то есть [[128,97], [35,22]].           Сверточный фильтр оставляет 128 и 22 нетронутыми, но обнуляет           из 97 и 35. Следовательно, операция свертки дает           значение 150 (128+22).

Сверточный слой состоит из серии сверточных операций, каждая из которых воздействует на отдельный фрагмент входной матрицы.

расходы

Синоним потери .

совместное обучение

Подход к полуконтролируемому обучению особенно полезен, когда выполняются все следующие условия:

Совместное обучение, по сути, усиливает независимые сигналы в более сильный сигнал. Например, рассмотрим модель классификации , которая классифицирует отдельные подержанные автомобили как « Хорошие» или «Плохие» . Один набор прогнозирующих функций может быть сосредоточен на совокупных характеристиках, таких как год, марка и модель автомобиля; другой набор прогнозирующих функций может быть сосредоточен на послужном списке предыдущего владельца и истории технического обслуживания автомобиля.

Основополагающая статья о совместном обучении — «Объединение размеченных и неразмеченных данных с совместным обучением» Блюма и Митчелла.

контрфактическая справедливость

#справедливость

Метрика справедливости , которая проверяет, дает ли классификатор тот же результат для одного человека, что и для другого человека, идентичного первому, за исключением одного или нескольких чувствительных атрибутов . Оценка классификатора на предмет контрфактической справедливости является одним из методов выявления потенциальных источников систематической ошибки в модели.

Дополнительную информацию см. в одном из следующих разделов:

смещение охвата

#справедливость

См. смещение выбора .

крах цветения

#язык

Предложение или фраза с неоднозначным смыслом. Цветение сбоев представляет собой серьезную проблему в понимании естественного языка . Например, заголовок «Красная лента держит небоскреб» — это настоящий крах, потому что модель NLU может интерпретировать заголовок буквально или фигурально.

критик

#рл

Синоним Deep Q-Network .

перекрестная энтропия

Обобщение Log Loss для задач многоклассовой классификации . Перекрестная энтропия количественно определяет разницу между двумя распределениями вероятностей. См. также недоумение .

перекрестная проверка

Механизм оценки того, насколько хорошо модель будет обобщаться на новые данные, путем тестирования модели на одном или нескольких непересекающихся подмножествах данных, исключенных из обучающего набора .

кумулятивная функция распределения (CDF)

Функция, определяющая частоту выборок, меньшую или равную целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. CDF сообщает вам, что примерно 50% выборок должны быть меньше или равны среднему значению и что примерно 84% выборок должны быть меньше или равны одному стандартному отклонению выше среднего.

Д

анализ данных

Получение понимания данных путем рассмотрения образцов, измерений и визуализации. Анализ данных может быть особенно полезен, когда набор данных получен впервые, прежде чем будет построена первая модель . Это также имеет решающее значение для понимания экспериментов и устранения проблем в системе.

увеличение данных

#изображение

Искусственное увеличение диапазона и количества обучающих примеров путем преобразования существующих примеров для создания дополнительных примеров. Например, предположим, что изображения являются одним из ваших объектов , но ваш набор данных не содержит достаточно примеров изображений, чтобы модель могла изучить полезные ассоциации. В идеале вы должны добавить в свой набор данных достаточно помеченных изображений, чтобы ваша модель могла правильно обучаться. Если это невозможно, увеличение данных может вращать, растягивать и отражать каждое изображение, чтобы создать множество вариантов исходного изображения, что, возможно, даст достаточно помеченных данных, чтобы обеспечить отличное обучение.

DataFrame

#основы

Популярный тип данных pandas для представления наборов данных в памяти.

DataFrame аналогичен таблице или электронной таблице. Каждый столбец DataFrame имеет имя (заголовок), а каждая строка идентифицируется уникальным номером.

Каждый столбец в DataFrame структурирован как двумерный массив, за исключением того, что каждому столбцу можно назначить свой собственный тип данных.

См. также официальную справочную страницу pandas.DataFrame .

параллелизм данных

Способ масштабирования обучения или вывода , который реплицирует всю модель на несколько устройств, а затем передает подмножество входных данных на каждое устройство. Параллелизм данных может обеспечить обучение и получение выводов для пакетов очень больших размеров ; однако параллелизм данных требует, чтобы модель была достаточно маленькой, чтобы ее можно было разместить на всех устройствах.

Параллелизм данных обычно ускоряет обучение и вывод.

См. также модель параллелизма .

API набора данных (tf.data)

#TensorFlow

Высокоуровневый API TensorFlow для чтения данных и преобразования их в форму, необходимую алгоритму машинного обучения. Объект tf.data.Dataset представляет собой последовательность элементов, в которой каждый элемент содержит один или несколько Tensor . Объект tf.data.Iterator обеспечивает доступ к элементам Dataset .

набор данных или набор данных

#основы

Коллекция необработанных данных, обычно (но не исключительно) организованная в одном из следующих форматов:

  • электронная таблица
  • файл в формате CSV (значения, разделенные запятыми)

граница решения

Разделитель между классами, изучаемыми моделью в двоичном классе или в задачах классификации нескольких классов . Например, на следующем изображении, представляющем задачу бинарной классификации, границей решения является граница между оранжевым классом и синим классом:

Четкая граница между одним классом и другим.

лес решений

#df

Модель, созданная из нескольких деревьев решений . Лес решений делает прогноз путем агрегирования прогнозов своих деревьев решений. Популярные типы лесов решений включают случайные леса и деревья с градиентным усилением .

Дополнительную информацию см. в разделе «Леса решений» курса «Леса решений».

порог принятия решения

Синоним порога классификации .

дерево решений

#df

Модель контролируемого обучения, состоящая из набора условий и листьев, организованных иерархически. Например, следующее дерево решений:

Дерево решений, состоящее из четырех условий, расположенных           иерархически, что приводит к пяти листьям.

декодер

#язык

В общем, любая система машинного обучения, которая преобразуется из обработанного, плотного или внутреннего представления в более необработанное, разреженное или внешнее представление.

Декодеры часто являются компонентами более крупных моделей, где они часто работают в паре с кодером .

В задачах последовательного преобразования декодер начинает с внутреннего состояния, сгенерированного кодером, для прогнозирования следующей последовательности.

Обратитесь к Transformer для определения декодера в архитектуре Transformer.

Дополнительные сведения см. в разделе «Большие языковые модели» в ускоренном курсе машинного обучения.

глубокая модель

#основы

Нейронная сеть, содержащая более одного скрытого слоя .

Глубокую модель еще называют глубокой нейронной сетью .

Контраст с широкой моделью .

глубокая нейронная сеть

Синоним глубокой модели .

Глубокая Q-сеть (DQN)

#рл

В Q-learning — глубокая нейронная сеть , предсказывающая Q-функции .

Критик — синоним Deep Q-Network.

демографический паритет

#справедливость

Метрика справедливости , которая удовлетворяется, если результаты классификации модели не зависят от заданного конфиденциального атрибута .

Например, если и лилипуты, и бробдингнаги подают документы в университет Глуббдубдриб, демографический паритет достигается, если процент принятых лилипутов такой же, как процент принятых бробдингнагов, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.

Сравните с уравниванием шансов и равенством возможностей , которые позволяют результатам классификации в совокупности зависеть от конфиденциальных атрибутов, но не позволяют результатам классификации для определенных указанных основных меток истинности зависеть от конфиденциальных атрибутов. См. «Борьба с дискриминацией с помощью более разумного машинного обучения» , где представлена ​​визуализация компромиссов при оптимизации для достижения демографического паритета.

Дополнительную информацию см. в разделе «Справедливость: демографический паритет» в ускоренном курсе машинного обучения.

шумоподавление

#язык

Общий подход к самостоятельному обучению , при котором:

  1. В набор данных искусственно добавляется шум .
  2. Модель пытается убрать шум.

Шумоподавление позволяет учиться на немаркированных примерах . Исходный набор данных служит целью или меткой , а зашумленные данные — входными данными.

Некоторые модели языка в масках используют шумоподавление следующим образом:

  1. Шум искусственно добавляется к непомеченному предложению путем маскировки некоторых токенов.
  2. Модель пытается предсказать исходные токены.

плотная особенность

#основы

Функция , в которой большинство или все значения не равны нулю, обычно это тензор значений с плавающей запятой. Например, следующий 10-элементный тензор является плотным, поскольку 9 его значений не равны нулю:

8 3 7 5 2 4 0 4 9 6

Контраст с редкими функциями .

плотный слой

Синоним полносвязного слоя .

глубина

#основы

Сумма следующего в нейронной сети :

Например, нейронная сеть с пятью скрытыми слоями и одним выходным слоем имеет глубину 6.

Обратите внимание, что входной слой не влияет на глубину.

сверточная нейронная сеть с глубоким разделением (sepCNN)

#изображение

Архитектура сверточной нейронной сети, основанная на Inception , но в которой модули Inception заменены глубинно разделимыми свертками. Также известен как Xception.

Разделимая по глубине свертка (также сокращенно называемая разделимой сверткой) разделяет стандартную трехмерную свертку на две отдельные операции свертки, которые более эффективны в вычислительном отношении: во-первых, глубинная свертка с глубиной 1 (n ✕ n ✕ 1), а затем, во-вторых, точечная свертка длиной и шириной 1 (1 ✕ 1 ✕ n).

Чтобы узнать больше, см. Xception: глубокое обучение с глубинно разделяемыми свертками .

производная метка

Синоним метки прокси .

устройство

#TensorFlow
#GoogleCloud

Перегруженный термин со следующими двумя возможными определениями:

  1. Категория оборудования, на котором можно запустить сеанс TensorFlow, включая процессоры, графические процессоры и TPU .
  2. При обучении модели МО на чипах-ускорителях (GPU или TPU) — той части системы, которая фактически манипулирует тензорами и внедрениями . Устройство работает на чипах-ускорителях. Напротив, хост обычно работает на процессоре.

дифференциальная конфиденциальность

В машинном обучении — подход анонимизации для защиты любых конфиденциальных данных (например, личной информации человека), включенных в обучающий набор модели, от раскрытия. Такой подход гарантирует, что модель не узнает и не запомнит многого о конкретном человеке. Это достигается путем выборки и добавления шума во время обучения модели, чтобы скрыть отдельные точки данных, снижая риск раскрытия конфиденциальных данных обучения.

Дифференциальная конфиденциальность также используется за пределами машинного обучения. Например, специалисты по обработке данных иногда используют дифференциальную конфиденциальность для защиты индивидуальной конфиденциальности при расчете статистики использования продуктов для разных демографических групп.

уменьшение размеров

Уменьшение количества измерений, используемых для представления определенного объекта в векторе объектов, обычно путем преобразования в вектор внедрения .

размеры

Перегруженный термин, имеющий любое из следующих определений:

  • Количество уровней координат в тензоре . Например:

    • Скаляр имеет нулевые измерения; например, ["Hello"] .
    • Вектор имеет одно измерение; например, [3, 5, 7, 11] .
    • Матрица имеет два измерения; например, [[2, 4, 18], [5, 7, 14]] . Вы можете однозначно указать конкретную ячейку в одномерном векторе с одной координатой; вам нужны две координаты, чтобы однозначно указать конкретную ячейку в двумерной матрице.
  • Количество записей в векторе признаков .

  • Количество элементов в слое внедрения .

прямое побуждение

#язык
#генеративныйИИ

Синоним подсказки с нулевым выстрелом .

дискретная функция

#основы

Объект с конечным набором возможных значений. Например, признак, значения которого могут быть только «животное» , «растение» или «минерал», является дискретным (или категориальным) признаком.

Контраст с непрерывной функцией .

дискриминационная модель

Модель , которая прогнозирует метки на основе набора одного или нескольких признаков . Более формально, дискриминационные модели определяют условную вероятность результата с учетом признаков и весов ; то есть:

p(output | features, weights)

Например, модель, которая предсказывает, является ли электронное письмо спамом на основе функций и весов, является дискриминационной моделью.

Подавляющее большинство моделей обучения с учителем, включая модели классификации и регрессии, являются дискриминативными моделями.

Сравните с генеративной моделью .

дискриминатор

Система, определяющая, настоящие примеры или подделка.

Альтернативно, это подсистема в генеративно-состязательной сети , которая определяет, являются ли примеры, созданные генератором, реальными или поддельными.

Дополнительную информацию см. в разделе «Дискриминатор» в курсе GAN.

несопоставимое воздействие

#справедливость

Принятие решений о людях, которые непропорционально влияют на разные подгруппы населения. Обычно это относится к ситуациям, когда алгоритмический процесс принятия решений вредит или приносит пользу одним подгруппам больше, чем другим.

Например, предположим, что алгоритм, определяющий право лилипутов на получение кредита на миниатюрный дом, с большей вероятностью классифицирует их как «неправомочных», если их почтовый адрес содержит определенный почтовый индекс. Если лилипуты с прямым порядком байтов с большей вероятностью будут иметь почтовые адреса с этим почтовым индексом, чем лилипуты с прямым порядком байтов, то этот алгоритм может привести к несопоставимому воздействию.

В отличие от несопоставимого подхода , который фокусируется на различиях, возникающих в результате того, что характеристики подгруппы являются явными входными данными для алгоритмического процесса принятия решений.

несопоставимое обращение

#справедливость

Включение чувствительных качеств субъектов в алгоритмический процесс принятия решений, при котором к различным подгруппам людей относятся по-разному.

Например, рассмотрим алгоритм, который определяет право лилипутов на получение кредита на строительство миниатюрного дома на основе данных, которые они предоставляют в своей заявке на кредит. Если алгоритм использует в качестве входных данных принадлежность лилипута к Big-Endian или Little-Endian, он применяет несопоставимую обработку по этому измерению.

Сравните с несопоставимым воздействием , которое фокусируется на различиях в социальном воздействии алгоритмических решений на подгруппы, независимо от того, являются ли эти подгруппы входными данными для модели.

дистилляция

#генеративныйИИ

Процесс уменьшения размера одной модели (известной как учитель ) до модели меньшего размера (известной как ученик ), которая максимально точно имитирует предсказания исходной модели. Дистилляция полезна, поскольку меньшая модель имеет два ключевых преимущества перед более крупной моделью (учителем):

  • Более быстрое время вывода
  • Уменьшение потребления памяти и энергии.

Однако прогнозы ученика обычно не так хороши, как прогнозы учителя.

Дистилляция обучает модель ученика минимизировать функцию потерь на основе разницы между результатами прогнозов моделей ученика и учителя.

Сравните и сопоставьте дистилляцию со следующими терминами:

Дополнительную информацию см. в разделе «LLM: точная настройка, дистилляция и быстрое проектирование» в ускоренном курсе машинного обучения.

распределение

Частота и диапазон различных значений для данного признака или метки . Распределение показывает, насколько вероятно то или иное значение.

На следующем изображении показаны гистограммы двух разных распределений:

  • Слева — степенное распределение богатства в зависимости от количества людей, владеющих этим богатством.
  • Справа — нормальное распределение роста в зависимости от количества людей с таким ростом.

Две гистограммы. Одна гистограмма показывает степенное распределение с           богатство на оси X и количество людей, обладающих этим богатством на оси X.           ось Y. У большинства людей очень мало богатства, а у немногих есть           много богатства. Другая гистограмма показывает нормальное распределение.           с высотой по оси X и количеством людей такого роста           по оси Y. Большинство людей группируются где-то рядом со средним значением.

Понимание распределения каждого объекта и меток поможет вам определить, как нормализовать значения и обнаружить выбросы .

Фраза вне распространения относится к значению, которое не появляется в наборе данных или встречается очень редко. Например, изображение планеты Сатурн будет считаться вышедшим из распространения для набора данных, состоящего из изображений кошек.

разделительная кластеризация

#кластеризация

См. иерархическую кластеризацию .

понижение частоты дискретизации

#изображение

Перегруженный термин, который может означать одно из следующего:

  • Уменьшение количества информации в признаке для более эффективного обучения модели. Например, перед тренировкой модели распознавания изображений необходимо выполнить преобразование изображений с высоким разрешением в формат с более низким разрешением.
  • Обучение на непропорционально низком проценте примеров перепредставленных классов с целью улучшения обучения модели на недостаточно представленных классах. Например, в наборе данных с несбалансированным классом модели, как правило, много узнают о классе большинства и недостаточно о классе меньшинства . Понижение выборки помогает сбалансировать объем обучения в классах большинства и меньшинства.

Дополнительную информацию см. в разделе «Наборы данных: несбалансированные наборы данных» в ускоренном курсе машинного обучения.

ДКН

#рл

Аббревиатура Deep Q-Network .

регуляризация отсева

Форма регуляризации, полезная при обучении нейронных сетей . Регуляризация отсева удаляет случайный выбор фиксированного количества единиц в сетевом слое для одного шага градиента. Чем больше единиц выпадало, тем сильнее регуляризация. Это аналогично обучению сети эмуляции экспоненциально большого ансамбля меньших сетей. Подробную информацию см. в разделе Dropout: простой способ предотвратить переобучение нейронных сетей .

динамичный

#основы

Что-то, что делается часто или постоянно. Термины динамический и онлайн являются синонимами в машинном обучении. Ниже приведены распространенные варианты использования динамического и онлайн- обучения в машинном обучении:

  • Динамическая модель (или онлайн-модель ) — это модель, которая часто или непрерывно переобучается.
  • Динамическое обучение (или онлайн-обучение ) — это процесс частого или непрерывного обучения.
  • Динамический вывод (или онлайн-вывод ) — это процесс генерации прогнозов по требованию.

динамическая модель

#основы

Модель , которая часто (возможно, даже постоянно) переобучается. Динамическая модель — это «обучение на протяжении всей жизни», которое постоянно адаптируется к меняющимся данным. Динамическая модель также известна как онлайн-модель .

Контраст со статической моделью .

Э

нетерпеливое исполнение

#TensorFlow

Среда программирования TensorFlow, в которой операции выполняются немедленно. Напротив, операции, вызываемые при выполнении графа, не выполняются до тех пор, пока они не будут явно оценены. Стремительное выполнение — это императивный интерфейс , очень похожий на код большинства языков программирования. Программы быстрого выполнения обычно гораздо легче отлаживать, чем программы выполнения на графе.

ранняя остановка

#основы

Метод регуляризации , который предполагает прекращение обучения до того, как перестанут уменьшаться потери при обучении. При ранней остановке вы намеренно прекращаете обучение модели, когда потери в наборе проверочных данных начинают увеличиваться; то есть, когда производительность обобщения ухудшается.

расстояние землеройной машины (EMD)

Мера относительного сходства двух распределений . Чем меньше расстояние, на которое проехал землеройный комбайн, тем более схожими являются распределения.

изменить расстояние

#язык

Измерение того, насколько похожи две текстовые строки друг на друга. В машинном обучении расстояние редактирования полезно по следующим причинам:

  • Расстояние редактирования легко вычислить.
  • Расстояние редактирования позволяет сравнивать две строки, которые, как известно, похожи друг на друга.
  • Расстояние редактирования может определять степень сходства различных строк с данной строкой.

Существует несколько определений расстояния редактирования, каждое из которых использует разные строковые операции. См. пример расстояния Левенштейна .

Обозначение Эйнсума

Эффективное обозначение для описания того, как следует комбинировать два тензора . Тензоры объединяются путем умножения элементов одного тензора на элементы другого тензора и последующего суммирования произведений. В нотации Einsum используются символы для обозначения осей каждого тензора, и те же самые символы переставляются, чтобы указать форму нового результирующего тензора.

NumPy предоставляет общую реализацию Einsum.

слой внедрения

#язык
#основы

Специальный скрытый слой , который обучается на многомерном категориальном признаке для постепенного изучения вектора внедрения более низкого измерения. Слой внедрения позволяет нейронной сети обучаться гораздо эффективнее, чем обучение только на многомерном категориальном признаке.

Например, на Земле в настоящее время произрастает около 73 000 видов деревьев. Предположим, что виды деревьев являются признаком вашей модели, поэтому входной слой вашей модели включает в себя вектор длиной 73 000 элементов. Например, возможно, baobab можно было бы представить примерно так:

Массив из 73 000 элементов. Первые 6232 элемента содержат значение      0. Следующий элемент содержит значение 1. Последние 66 767 элементов содержат значение      значение ноль.

Массив из 73 000 элементов очень длинный. Если вы не добавите в модель слой внедрения, обучение займет очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете слой внедрения, состоящий из 12 измерений. Следовательно, слой внедрения постепенно изучает новый вектор внедрения для каждой породы деревьев.

В определенных ситуациях хеширование является разумной альтернативой слою внедрения.

Дополнительную информацию см. в разделе «Внедрения в ускоренный курс машинного обучения».

пространство для встраивания

#язык

Сопоставляется d-мерное векторное пространство, являющееся частью векторного пространства более высокой размерности. Пространство внедрения обучено захвату структуры, значимой для предполагаемого приложения.

Скалярное произведение двух вложений является мерой их сходства.

вектор внедрения

#язык

Грубо говоря, массив чисел с плавающей запятой, взятый из любого скрытого слоя и описывающий входные данные этого скрытого слоя. Часто вектор внедрения представляет собой массив чисел с плавающей запятой, обученный на слое внедрения. Например, предположим, что слой внедрения должен изучить вектор внедрения для каждого из 73 000 видов деревьев на Земле. Возможно, следующий массив является вектором внедрения дерева баобаба:

Массив из 12 элементов, каждый из которых содержит число с плавающей запятой.           между 0,0 и 1,0.

Вектор внедрения — это не набор случайных чисел. Слой внедрения определяет эти значения посредством обучения, аналогично тому, как нейронная сеть изучает другие веса во время обучения. Каждый элемент массива представляет собой рейтинг по некоторой характеристике породы дерева. Какой элемент представляет характеристику какой породы деревьев? Людям это очень сложно определить.

Математически примечательная часть вектора внедрения заключается в том, что аналогичные элементы имеют одинаковые наборы чисел с плавающей запятой. Например, похожие породы деревьев имеют более похожий набор чисел с плавающей запятой, чем разные породы деревьев. Секвойи и секвойи являются родственными породами деревьев, поэтому у них будет более похожий набор чисел с плавающей запятой, чем у секвой и кокосовых пальм. Числа в векторе внедрения будут меняться каждый раз, когда вы переобучаете модель, даже если вы переобучаете модель с идентичными входными данными.

эмпирическая кумулятивная функция распределения (eCDF или EDF)

Кумулятивная функция распределения , основанная на эмпирических измерениях на основе реального набора данных. Значение функции в любой точке вдоль оси X — это доля наблюдений в наборе данных, которые меньше или равны указанному значению.

минимизация эмпирического риска (ERM)

Выбор функции, минимизирующей потери на обучающем наборе. Контраст с минимизацией структурного риска .

кодер

#язык

В общем, любая система машинного обучения, которая преобразует необработанное, разреженное или внешнее представление в более обработанное, более плотное или более внутреннее представление.

Кодеры часто являются компонентом более крупной модели, где они часто работают в паре с декодером . Некоторые Трансформеры объединяют кодеры с декодерами, хотя другие Трансформеры используют только кодер или только декодер.

Некоторые системы используют выходные данные кодировщика в качестве входных данных для сети классификации или регрессии.

В задачах «последовательность-последовательность» кодер принимает входную последовательность и возвращает внутреннее состояние (вектор). Затем декодер использует это внутреннее состояние для прогнозирования следующей последовательности.

Обратитесь к Transformer для определения кодера в архитектуре Transformer.

Дополнительную информацию см. в разделе LLM: Что такое большая языковая модель в ускоренном курсе машинного обучения.

ансамбль

Коллекция моделей, обученных независимо, чьи прогнозы усредняются или агрегируются. Во многих случаях ансамбль дает лучшие прогнозы, чем одна модель. Например, случайный лес — это ансамбль, построенный из нескольких деревьев решений . Обратите внимание, что не все леса решений являются ансамблями.

Дополнительную информацию см. в разделе «Случайный лес в ускоренном курсе машинного обучения».

энтропия

#df

В теории информации — описание того, насколько непредсказуемо распределение вероятностей. Альтернативно, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

  • H — энтропия.
  • p — доля примеров «1».
  • q — доля примеров «0». Обратите внимание, что q = (1 - p)
  • log обычно равен log 2 . В данном случае единицей энтропии является бит.

Например, предположим следующее:

  • 100 примеров содержат значение «1»
  • 300 примеров содержат значение «0»

Следовательно, значение энтропии равно:

  • р = 0,25
  • q = 0,75
  • H = (-0,25)log 2 (0,25) - (0,75)log 2 (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 «0» и 200 «1») будет иметь энтропию 1,0 бита на каждый пример. Когда набор становится более несбалансированным , его энтропия приближается к 0,0.

В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия во время роста дерева решений классификации.

Сравните энтропию с:

Энтропию часто называют энтропией Шеннона .

Дополнительную информацию см. в разделе Точный разделитель для двоичной классификации с числовыми признаками в курсе «Леса решений».

среда

#рл

В обучении с подкреплением — мир, в котором находится агент и который позволяет агенту наблюдать за состоянием этого мира. Например, представленный мир может быть игрой, например шахматами, или физическим миром, например лабиринтом. Когда агент применяет действие к среде, среда переходит между состояниями.

эпизод

#рл

При обучении с подкреплением — каждая из повторяющихся попыток агента изучить окружающую среду .

эпоха

#основы

Полный проход обучения по всему обучающему набору , при котором каждый пример обрабатывается один раз.

Эпоха представляет собой N / итераций обучения размера пакета , где N — общее количество примеров.

Например, предположим следующее:

  • Набор данных состоит из 1000 примеров.
  • Размер партии — 50 экземпляров.

Следовательно, для одной эпохи требуется 20 итераций:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

жадная политика Эпсилон

#рл

В обучении с подкреплением - политика , которая следует либо случайной политике с эпсилон-вероятностью, либо жадной политике в противном случае. Например, если эпсилон равен 0,9, то политика следует случайной политике в 90% случаев и жадной политике в 10% случаев.

В последовательных эпизодах алгоритм уменьшает значение эпсилона, чтобы перейти от следования случайной политике к жадной политике. Изменяя политику, агент сначала случайным образом исследует окружающую среду, а затем жадно использует результаты случайного исследования.

равенство возможностей

#справедливость

Метрика справедливости , позволяющая оценить, одинаково ли хорошо модель предсказывает желаемый результат для всех значений чувствительного атрибута . Другими словами, если желаемым результатом модели является положительный класс , цель состоит в том, чтобы истинный положительный уровень был одинаковым для всех групп.

Равенство возможностей связано с уравниванием шансов , которое требует, чтобы как истинно положительные, так и ложноположительные показатели были одинаковыми для всех групп.

Предположим, университет Глаббдубдриб принимает как лилипутов, так и бробдингнегов на строгую математическую программу. Средние школы лилипутов предлагают обширную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. В средних школах Бробдингнеджана вообще не проводятся занятия по математике, и в результате гораздо меньше учеников имеют соответствующую квалификацию. Равенство возможностей соблюдается для предпочтительного ярлыка «допущенный» в отношении национальности (лилипут или бробдингнаг), если квалифицированные студенты имеют одинаковую вероятность быть принятыми независимо от того, являются ли они лилипутами или бробдингнегами.

Например, предположим, что 100 лилипутов и 100 бробдингнагцев подают заявки в университет Глаббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 1. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 3
Отклоненный 45 7
Общий 90 10
Процент зачисленных квалифицированных студентов: 45/90 = 50%.
Процент отклоненных неквалифицированных студентов: 7/10 = 70%
Общий процент принятых студентов-лилипутов: (45+3)/100 = 48%.

Таблица 2. Кандидаты из Бробдингнага (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 9
Отклоненный 5 81
Общий 10 90
Процент принятых квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 81/90 = 90%.
Общий процент зачисленных студентов Бробдингнага: (5+9)/100 = 14%.

Предыдущие примеры удовлетворяют равенству возможностей для приема квалифицированных студентов, поскольку квалифицированные лилипуты и бробдингнаги имеют 50% шансов на поступление.

Хотя равенство возможностей соблюдается, следующие два показателя справедливости не выполняются:

  • демографический паритет : лилипуты и бробдингнаги принимаются в университет с разной скоростью; Принимаются 48% студентов-лилипутов, но только 14% студентов-бробдингнегов.
  • уравненные шансы : хотя квалифицированные студенты-лилипуты и бробдингнаги имеют одинаковые шансы на поступление, дополнительное ограничение, заключающееся в том, что неквалифицированные лилипуты и бробдингнаги имеют одинаковые шансы быть отвергнутыми, не удовлетворяется. У неквалифицированных лилипутов процент отказов составляет 70%, тогда как у неквалифицированных бробдингнегов — 90%.

Дополнительную информацию см. в разделе «Справедливость: равенство возможностей в ускоренном курсе машинного обучения».

уравненные шансы

#справедливость

Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель прогнозирует результаты для всех значений чувствительного атрибута как в отношении положительного, так и в отношении отрицательного класса, а не только одного или другого класса. Другими словами, как истинно положительный уровень , так и уровень ложноотрицательного результата должны быть одинаковыми для всех групп.

Уравненные шансы связаны с равенством возможностей , которое фокусируется только на частоте ошибок для одного класса (положительных или отрицательных).

Например, предположим, что университет Глаббдубдриб принимает как лилипутов, так и бробдингнегов на строгую математическую программу. Средние школы лилипутов предлагают обширную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. В средних школах Бробдингнеджана вообще не проводятся занятия по математике, и в результате гораздо меньше учеников имеют соответствующую квалификацию. Уравненные шансы удовлетворяются при условии, что независимо от того, является ли заявитель лилипутом или бробдингнежцем, если он соответствует требованиям, он имеет одинаковую вероятность быть допущенным к программе, а если он не соответствует требованиям, он с одинаковой вероятностью будет отклонен. .

Предположим, 100 лилипутов и 100 бробдингнагцев подают заявки в университет Глаббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 3. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 2
Отклоненный 45 8
Общий 90 10
Процент зачисленных квалифицированных студентов: 45/90 = 50%.
Процент отклоненных неквалифицированных студентов: 8/10 = 80%
Общий процент зачисленных студентов-лилипутов: (45+2)/100 = 47%.

Таблица 4. Кандидаты из Бробдингнага (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 18
Отклоненный 5 72
Общий 10 90
Процент принятых квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 72/90 = 80%.
Общий процент зачисленных студентов Бробдингнега: (5+18)/100 = 23%.

Уравненные шансы удовлетворяются, потому что квалифицированные студенты-лилипуты и бробдингнеги имеют 50% шанс быть принятыми, а неквалифицированные лилипуты и бробдингнаги имеют 80% шанс быть отклоненными.

Уравненные шансы формально определены в «Равенстве возможностей в контролируемом обучении» следующим образом: «предиктор Ŷ удовлетворяет уравненным шансам в отношении защищенного атрибута A и результата Y, если Ŷ и A независимы, при условии зависимости от Y».

Оценщик

#TensorFlow

Устаревший API TensorFlow. Используйте tf.keras вместо оценщиков.

оценивает

#язык
#генеративныйИИ

В основном используется как аббревиатура для оценок LLM . В более широком смысле, evals — это аббревиатура, обозначающая любую форму оценки .

оценка

#язык
#генеративныйИИ

Процесс измерения качества модели или сравнения различных моделей друг с другом.

Чтобы оценить модель контролируемого машинного обучения , вы обычно сравниваете ее с набором проверки и набором тестов . Оценка LLM обычно включает в себя более широкую оценку качества и безопасности.

пример

#основы

Значения одной строки объектов и, возможно, метки . Примеры контролируемого обучения делятся на две общие категории:

  • Помеченный пример состоит из одного или нескольких объектов и метки. Маркированные примеры используются во время обучения.
  • Немаркированный пример состоит из одного или нескольких объектов, но без метки. Во время вывода используются немаркированные примеры.

Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. Вот три помеченных примера:

Функции Этикетка
Температура Влажность Давление Оценка теста
15 47 998 Хороший
19 34 1020 Отличный
18 92 1012 Бедный

Вот три немаркированных примера:

Температура Влажность Давление
12 62 1014
21 47 1017
19 41 1021

Строка набора данных обычно является необработанным источником примера. То есть пример обычно состоит из подмножества столбцов набора данных. Кроме того, объекты в примере также могут включать в себя синтетические объекты , такие как перекрестные объекты .

Дополнительную информацию см. в разделе «Обучение с учителем» в курсе «Введение в машинное обучение».

повтор опыта

#рл

В обучении с подкреплением — метод DQN, используемый для уменьшения временных корреляций в обучающих данных. Агент сохраняет переходы состояний в буфере воспроизведения , а затем выбирает переходы из буфера воспроизведения для создания обучающих данных.

предвзятость экспериментатора

#справедливость

См. предвзятость подтверждения .

проблема взрывающегося градиента

#seq

Тенденция градиентов в глубоких нейронных сетях (особенно в рекуррентных нейронных сетях ) становиться удивительно крутыми (высокими). Крутые градиенты часто приводят к очень большим обновлениям весов каждого узла в глубокой нейронной сети.

Модели, страдающие от проблемы взрывного градиента, становится трудно или невозможно обучать. Градиентное отсечение может решить эту проблему.

Сравните с проблемой исчезающего градиента .

Ф

Ф 1

«Сводная» метрика двоичной классификации , которая зависит как от точности , так и от полноты . Вот формула:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

фактичность

#генеративныйИИ

В мире МО — свойство, описывающее модель, выходные данные которой основаны на реальности. Фактичность — это скорее концепция, чем показатель. Например, предположим, что вы отправляете следующую подсказку в большую языковую модель :

Какова химическая формула поваренной соли?

Модель, оптимизирующая фактологию, ответила бы:

NaCl

Заманчиво предположить, что все модели должны основываться на фактах. Однако некоторые подсказки, такие как следующие, должны привести к тому, что генеративная модель ИИ оптимизирует творческий подход , а не фактологию .

Расскажи мне лимерик про космонавта и гусеницу.

Вряд ли получившийся лимерик будет основан на реальности.

Сравните с заземленностью .

ограничение справедливости

#справедливость
Применение ограничения к алгоритму для обеспечения соблюдения одного или нескольких определений справедливости. Примеры ограничений справедливости включают в себя:

показатель справедливости

#справедливость

Математическое определение «справедливости», поддающееся измерению. Некоторые часто используемые показатели справедливости включают в себя:

Многие показатели справедливости являются взаимоисключающими; см . несовместимость показателей справедливости .

ложноотрицательный (ЛН)

#основы

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (негативный класс), но на самом деле это сообщение электронной почты является спамом .

ложноотрицательный показатель

Доля реальных положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула рассчитывает уровень ложноотрицательных результатов:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

ложноположительный результат (FP)

#основы

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты не является спамом .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

уровень ложноположительных результатов (FPR)

#основы

Доля реальных отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает уровень ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Частота ложноположительных результатов — это ось X на кривой ROC .

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

особенность

#основы

Входная переменная модели машинного обучения. Пример состоит из одной или нескольких функций. Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. В следующей таблице показаны три примера, каждый из которых содержит три функции и одну метку:

Функции Этикетка
Температура Влажность Давление Оценка теста
15 47 998 92
19 34 1020 84
18 92 1012 87

Контраст с этикеткой .

Дополнительную информацию см. в разделе «Обучение с учителем» в курсе «Введение в машинное обучение».

особенность креста

#основы

Синтетический признак, образованный путем «пересечения» категориальных или группированных признаков.

Например, рассмотрим модель «прогноза настроения», которая представляет температуру в одном из следующих четырех сегментов:

  • freezing
  • chilly
  • temperate
  • warm

И представляет скорость ветра в одном из следующих трех сегментов:

  • still
  • light
  • windy

Без перекрестия функций линейная модель обучается независимо на каждом из семи предыдущих сегментов. Итак, модель тренируется, например, freezing независимо от тренировки, например, windy .

В качестве альтернативы вы можете создать перекрестную функцию температуры и скорости ветра. Эта синтетическая функция будет иметь следующие 12 возможных значений:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Благодаря крестикам функций модель может запоминать разницу в настроении между freezing-windy и freezing-still днем.

Если вы создадите синтетический объект из двух объектов, каждый из которых имеет множество разных сегментов, полученный кросс объектов будет иметь огромное количество возможных комбинаций. Например, если один объект имеет 1000 сегментов, а другой — 2000 сегментов, результирующий кросс объектов будет иметь 2 000 000 сегментов.

Формально крест — это декартово произведение .

Перекрещивания признаков в основном используются с линейными моделями и редко используются с нейронными сетями.

Дополнительную информацию см. в разделе Категориальные данные: перекрестия функций в ускоренном курсе машинного обучения.

разработка функций

#основы
#TensorFlow

Процесс, который включает в себя следующие этапы:

  1. Определение того, какие функции могут быть полезны при обучении модели.
  2. Преобразование необработанных данных из набора данных в эффективные версии этих функций.

Например, вы можете решить, что temperature может быть полезной функцией. Затем вы можете поэкспериментировать с группированием , чтобы оптимизировать то, что модель может узнать из разных temperature диапазонов.

Инжиниринг функций иногда называют извлечением функций или реализацией функций.

Дополнительные сведения см. в разделе «Численные данные: как модель принимает данные с использованием векторов признаков» в ускоренном курсе машинного обучения.

извлечение признаков

Перегруженный термин, имеющий одно из следующих определений:

важность функций

#df

Синоним переменных важностей .

набор функций

#основы

Группа функций, на которых тренируется ваша модель машинного обучения. Например, почтовый индекс, размер и состояние недвижимости могут составлять простой набор функций для модели, прогнозирующей цены на жилье.

спецификация функции

#TensorFlow

Описывает информацию, необходимую для извлечения данных функций из буфера протокола tf.Example . Поскольку буфер протокола tf.Example — это всего лишь контейнер для данных, необходимо указать следующее:

  • Данные для извлечения (то есть ключи для функций)
  • Тип данных (например, float или int)
  • Длина (фиксированная или переменная)

вектор признаков

#основы

Массив значений признаков , содержащий пример . Вектор признаков вводится во время обучения и во время вывода . Например, вектор признаков для модели с двумя дискретными признаками может быть следующим:

[0.92, 0.56]

Четыре слоя: входной слой, два скрытых слоя и один выходной слой.           Входной слой содержит два узла, один из которых содержит значение           0,92, а другой — со значением 0,56.

В каждом примере предоставляются разные значения вектора признаков, поэтому вектор признаков для следующего примера может выглядеть примерно так:

[0.73, 0.49]

Разработка признаков определяет, как представлять объекты в векторе признаков. Например, двоичный категориальный признак с пятью возможными значениями может быть представлен с помощью горячего кодирования . В этом случае часть вектора признаков для конкретного примера будет состоять из четырех нулей и одного 1,0 в третьей позиции, как показано ниже:

[0.0, 0.0, 1.0, 0.0, 0.0]

В качестве другого примера предположим, что ваша модель состоит из трех функций:

  • двоичный категориальный признак с пятью возможными значениями, представленными с помощью горячего кодирования; например: [0.0, 1.0, 0.0, 0.0, 0.0]
  • еще один двоичный категориальный признак с тремя возможными значениями, представленными с помощью горячего кодирования; например: [0.0, 0.0, 1.0]
  • функция с плавающей запятой; например: 8.3 .

В этом случае вектор признаков для каждого примера будет представлен девятью значениями. Учитывая примеры значений в предыдущем списке, вектор признаков будет следующим:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Дополнительные сведения см. в разделе «Численные данные: как модель принимает данные с использованием векторов признаков» в ускоренном курсе машинного обучения.

характеристика

Процесс извлечения признаков из источника входных данных, например документа или видео, и сопоставления этих признаков с вектором признаков .

Некоторые эксперты по ML используют функцию как синоним разработки функций или извлечения функций .

федеративное обучение

Подход распределенного машинного обучения, который обучает модели машинного обучения с использованием децентрализованных примеров, находящихся на таких устройствах, как смартфоны. При федеративном обучении подмножество устройств загружает текущую модель с центрального координационного сервера. Устройства используют примеры, хранящиеся на устройствах, для улучшения модели. Затем устройства загружают улучшения модели (но не обучающие примеры) на координирующий сервер, где они объединяются с другими обновлениями для получения улучшенной глобальной модели. После агрегирования обновления модели, вычисленные устройствами, больше не нужны и могут быть удалены.

Поскольку примеры обучения никогда не загружаются, федеративное обучение следует принципам конфиденциальности целенаправленного сбора и минимизации данных.

Дополнительные сведения о федеративном обучении см. в этом руководстве .

петля обратной связи

#основы

В машинном обучении — ситуация, в которой предсказания модели влияют на данные обучения для той же или другой модели. Например, модель, рекомендующая фильмы, будет влиять на фильмы, которые люди смотрят, что затем повлияет на последующие модели рекомендаций фильмов.

Дополнительные сведения см. в разделе «Производственные системы машинного обучения: вопросы, которые следует задать в ускоренном курсе машинного обучения».

нейронная сеть прямого распространения (FFN)

Нейронная сеть без циклических и рекурсивных связей. Например, традиционные глубокие нейронные сети представляют собой нейронные сети прямого распространения. Сравните с рекуррентными нейронными сетями , которые являются циклическими.

обучение в несколько этапов

Подход машинного обучения, часто используемый для классификации объектов, предназначенный для обучения эффективных классификаторов лишь на небольшом количестве обучающих примеров.

См. также однократное обучение и нулевое обучение .

подсказка из нескольких кадров

#язык
#генеративныйИИ

Приглашение , содержащее более одного («несколько») примеров, демонстрирующих, как должна реагировать большая языковая модель . Например, следующая длинная подсказка содержит два примера, показывающие большую языковую модель, как отвечать на запрос.

Части одной подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Франция: евро Один пример.
Великобритания: фунт стерлингов. Другой пример.
Индия: Фактический запрос.

Подсказки с небольшим количеством шагов обычно дают более желательные результаты, чем подсказки с нулевым шагом и одноразовые подсказки . Однако подсказка с несколькими выстрелами требует более длинной подсказки.

Подсказки в несколько этапов — это форма обучения в несколько этапов, применяемая к обучению на основе подсказок .

Дополнительную информацию см. в разделе «Быстрое проектирование» в ускоренном курсе машинного обучения.

скрипка

#язык

Библиотека конфигурации, ориентированная на Python, которая устанавливает значения функций и классов без инвазивного кода или инфраструктуры. В случае Pax и других баз кода ML эти функции и классы представляют модели и гиперпараметры обучения .

Фиддл предполагает, что базы кода машинного обучения обычно делятся на:

  • Код библиотеки, определяющий слои и оптимизаторы.
  • «Склеивающий» код набора данных, который вызывает библиотеки и связывает все воедино.

Fiddle фиксирует структуру вызовов связующего кода в неоцененной и изменяемой форме.

тонкая настройка

#язык
#изображение
#генеративныйИИ

Второй проход обучения для конкретной задачи, выполняемый на предварительно обученной модели для уточнения ее параметров для конкретного варианта использования. Например, полная последовательность обучения для некоторых больших языковых моделей выглядит следующим образом:

  1. Предварительное обучение: обучите большую языковую модель на обширном общем наборе данных, например на всех англоязычных страницах Википедии.
  2. Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например ответа на медицинские запросы. Точная настройка обычно включает сотни или тысячи примеров, ориентированных на конкретную задачу.

В качестве другого примера полная последовательность обучения для модели большого изображения выглядит следующим образом:

  1. Предварительное обучение: обучите большую модель изображения на обширном общем наборе данных изображений, например на всех изображениях в Wikimedia Commons.
  2. Точная настройка: обучение предварительно обученной модели выполнению конкретной задачи, например генерации изображений косаток.

Точная настройка может включать любую комбинацию следующих стратегий:

  • Изменение всех существующих параметров предварительно обученной модели. Иногда это называют полной тонкой настройкой .
  • Изменение только некоторых существующих параметров предварительно обученной модели (обычно слоев, ближайших к выходному слою ), сохраняя при этом другие существующие параметры неизменными (обычно слои, ближайшие к входному слою ). См. настройку с эффективным использованием параметров .
  • Добавление дополнительных слоев, обычно поверх существующих слоев, ближайших к выходному слою.

Точная настройка — это форма трансферного обучения . Таким образом, при точной настройке может использоваться другая функция потерь или другой тип модели, чем те, которые используются для обучения предварительно обученной модели. Например, вы можете точно настроить предварительно обученную модель большого изображения для создания регрессионной модели, которая возвращает количество птиц во входном изображении.

Сравните и сопоставьте тонкую настройку со следующими терминами:

Дополнительные сведения см. в разделе «Точная настройка ускоренного курса машинного обучения».

Лен

#язык

Высокопроизводительная библиотека с открытым исходным кодом для глубокого обучения, построенная на основе JAX . Flax предоставляет функции для обучения нейронных сетей , а также методы оценки их производительности.

льноформер

#язык

Библиотека Transformer с открытым исходным кодом, построенная на Flax и предназначенная в первую очередь для обработки естественного языка и мультимодальных исследований.

забыть ворота

#seq

Часть клетки долговременной краткосрочной памяти , регулирующая поток информации через клетку. Ворота забывания поддерживают контекст, решая, какую информацию следует исключить из состояния ячейки.

доля успехов

#генеративныйИИ

Метрика для оценки текста, сгенерированного моделью машинного обучения. Доля успехов — это количество «успешных» сгенерированных текстовых выходных данных, деленное на общее количество сгенерированных текстовых выходных данных. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых оказались успешными, то доля успешных результатов составит 50%.

Хотя доля успехов широко полезна в статистике, в рамках машинного обучения этот показатель в первую очередь полезен для измерения проверяемых задач, таких как генерация кода или математические задачи.

полный софтмакс

Синоним softmax .

Сравните с выборкой кандидатов .

Дополнительную информацию см. в разделе «Нейронные сети: многоклассовая классификация» в ускоренном курсе машинного обучения.

полносвязный слой

Скрытый слой , в котором каждый узел соединен с каждым узлом последующего скрытого слоя.

Полносвязный слой также известен как плотный слой .

преобразование функции

Функция, которая принимает функцию в качестве входных данных и возвращает преобразованную функцию в качестве выходных данных. JAX использует преобразования функций.

Г

ГАН

Аббревиатура от генеративно-состязательной сети .

Близнецы

#язык
#изображение
#генеративныйИИ

Экосистема, включающая самый передовой искусственный интеллект Google. К элементам этой экосистемы относятся:

  • Различные модели Gemini .
  • Интерактивный диалоговый интерфейс модели Gemini . Пользователи вводят запросы, и Gemini отвечает на эти запросы.
  • Различные API Gemini.
  • Различные бизнес-продукты на основе моделей Gemini; например, Gemini для Google Cloud .

Модели Близнецов

#язык
#изображение
#генеративныйИИ

Новейшие мультимодальные модели Google на основе Transformer . Модели Gemini специально разработаны для интеграции с агентами .

Пользователи могут взаимодействовать с моделями Gemini различными способами, в том числе через интерактивный диалоговый интерфейс и через SDK.

обобщение

#основы

Способность модели делать правильные прогнозы на основе новых, ранее невидимых данных. Модель, которая может обобщать, является противоположностью модели, которая переоснащается .

Дополнительную информацию см. в разделе «Обобщение в ускоренном курсе машинного обучения».

кривая обобщения

#основы

График потерь при обучении и потерь при проверке в зависимости от количества итераций .

Кривая обобщения может помочь вам обнаружить возможное переобучение . Например, следующая кривая обобщения предполагает переобучение, поскольку потери при проверке в конечном итоге становятся значительно выше, чем потери при обучении.

Декартов график, на котором ось Y отмечена потерями, а ось X           называется итерациями. Появляются два сюжета. Один график показывает           потеря обучения, а другой показывает потерю проверки.           Оба графика начинаются одинаково, но в конечном итоге происходит потеря обучения.           падает намного ниже, чем потери при проверке.

Дополнительную информацию см. в разделе «Обобщение в ускоренном курсе машинного обучения».

обобщенная линейная модель

Обобщение моделей регрессии методом наименьших квадратов , основанных на гауссовском шуме , на другие типы моделей, основанных на других типах шума, таких как шум Пуассона или категориальный шум. Примеры обобщенных линейных моделей включают:

Параметры обобщенной линейной модели можно найти посредством выпуклой оптимизации .

Обобщенные линейные модели обладают следующими свойствами:

  • Среднее предсказание оптимальной модели регрессии наименьших квадратов равно средней метке обучающих данных.
  • Средняя вероятность, предсказанная оптимальной моделью логистической регрессии, равна средней метке обучающих данных.

Возможности обобщенной линейной модели ограничены ее особенностями. В отличие от глубокой модели, обобщенная линейная модель не может «обучиться новым функциям».

сгенерированный текст

#язык
#генеративныйИИ

В общем, текст, который выводит модель машинного обучения. При оценке больших языковых моделей некоторые метрики сравнивают сгенерированный текст с ссылочным текстом . Например, предположим, что вы пытаетесь определить, насколько эффективно модель машинного обучения переводится с французского на голландский. В этом случае:

  • Сгенерированный текст представляет собой голландский перевод, который выводит модель машинного обучения.
  • Справочный текст — это голландский перевод, созданный переводчиком-человеком (или программным обеспечением).

Обратите внимание, что некоторые стратегии оценки не включают справочный текст.

генеративно-состязательная сеть (GAN)

Система создания новых данных, в которой генератор создает данные, а дискриминатор определяет, действительны или недействительны эти созданные данные.

Дополнительную информацию см. в курсе «Генераторно-состязательные сети» .

генеративный ИИ

#язык
#изображение
#генеративныйИИ

Возникающее преобразующее поле без формального определения. Тем не менее, большинство экспертов сходятся во мнении, что генеративные модели ИИ могут создавать («генерировать») контент, который имеет все следующие характеристики:

  • сложный
  • последовательный
  • оригинальный

Например, генеративная модель ИИ может создавать сложные эссе или изображения.

Некоторые более ранние технологии, включая LSTM и RNN , также могут генерировать оригинальный и связный контент. Некоторые эксперты рассматривают эти более ранние технологии как генеративный ИИ, в то время как другие считают, что настоящий генеративный ИИ требует более сложных результатов, чем те, которые могут произвести более ранние технологии.

Сравните с прогнозным ML .

генеративная модель

Практически говоря, модель, которая выполняет одно из следующих действий:

  • Создает (генерирует) новые примеры из набора обучающих данных. Например, генеративная модель может создавать стихи после обучения на наборе данных стихов. Генераторная часть генеративно-состязательной сети попадает в эту категорию.
  • Определяет вероятность того, что новый пример взят из обучающего набора или был создан с помощью того же механизма, который создал обучающий набор. Например, после обучения на наборе данных, состоящем из английских предложений, генеративная модель может определить вероятность того, что новые входные данные являются действительным английским предложением.

Генеративная модель теоретически может определить распределение примеров или определенных функций в наборе данных. То есть:

p(examples)

Модели обучения без учителя являются порождающими.

Сравните с дискриминативными моделями .

генератор

Подсистема в генеративно-состязательной сети , создающая новые примеры .

Сравните с дискриминативной моделью .

Джини примесь

#df

Метрика, похожая на энтропию . Разделители используют значения, полученные либо из примеси Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации происходит от энтропии. Не существует общепринятого эквивалентного термина для показателя, полученного из примеси Джини; однако этот безымянный показатель так же важен, как и получение информации.

Примесь Джини еще называют индексом Джини , или просто Джини .

золотой набор данных

Набор вручную отобранных данных, отражающих основную информацию . Команды могут использовать один или несколько золотых наборов данных для оценки качества модели.

Некоторые «золотые наборы данных» отражают различные подобласти базовой истины. Например, золотой набор данных для классификации изображений может отражать условия освещения и разрешение изображения.

золотой ответ

#язык
#генеративныйИИ

Заведомо хороший ответ. Например, учитывая следующую подсказку :

2 + 2

Надеемся, что золотой ответ будет следующим:

4

GPT (Генераторный предварительно обученный трансформатор)

#язык

Семейство больших языковых моделей на основе Transformer , разработанное OpenAI .

Варианты GPT могут применяться к нескольким модальностям , в том числе:

  • генерация изображений (например, ImageGPT)
  • генерация текста в изображение (например, DALL-E ).

градиент

Вектор частных производных по всем независимым переменным. В машинном обучении градиент — это вектор частных производных модельной функции. Градиент указывает в направлении наибольшего подъема.

накопление градиента

Метод обратного распространения ошибки , который обновляет параметры только один раз за эпоху, а не один раз за итерацию. После обработки каждого мини-пакета функция накопления градиентов просто обновляет общее количество градиентов. Затем, после обработки последней мини-партии в эпоху, система наконец обновляет параметры на основе суммы всех изменений градиента.

Накопление градиента полезно, когда размер пакета очень велик по сравнению с объемом доступной памяти для обучения. Когда возникает проблема с памятью, естественной тенденцией является уменьшение размера пакета. Однако уменьшение размера пакета при обычном обратном распространении ошибки увеличивает количество обновлений параметров. Накопление градиента позволяет модели избежать проблем с памятью, но при этом эффективно обучаться.

Деревья решений (GBT) с градиентным усилением

#df

Тип леса решений , в котором:

Дополнительную информацию см. в разделе «Деревья решений с градиентным усилением» в курсе «Леса решений».

повышение градиента

#df

Алгоритм обучения, в котором слабые модели обучаются для итеративного улучшения качества (уменьшения потерь) сильной модели. Например, слабая модель может представлять собой линейную модель или модель небольшого дерева решений. Сильная модель становится суммой всех ранее обученных слабых моделей.

В простейшей форме повышения градиента на каждой итерации слабая модель обучается прогнозированию градиента потерь сильной модели. Затем выходные данные сильной модели обновляются путем вычитания прогнозируемого градиента, аналогично градиентному спуску .

$$F_{0} = 0$$$$F_{i+1} = F_i - \xi f_i $$

где:

  • $F_{0}$ — стартовая сильная модель.
  • $F_{i+1}$ — следующая сильная модель.
  • $F_{i}$ — текущая сильная модель.
  • $\xi$ — это значение от 0,0 до 1,0, называемое сжатием , которое аналогично скорости обучения при градиентном спуске.
  • $f_{i}$ — слабая модель, обученная прогнозировать градиент потерь $F_{i}$.

Современные варианты повышения градиента также включают в свои вычисления вторую производную (гессиан) потерь.

Деревья решений обычно используются в качестве слабых моделей при повышении градиента. См . деревья решений (решений) с градиентным усилением .

градиентная обрезка

#seq

Часто используемый механизм для смягчения проблемы взрывающегося градиента путем искусственного ограничения (обрезания) максимального значения градиентов при использовании градиентного спуска для обучения модели.

градиентный спуск

#основы

Математический метод минимизации потерь . Градиентный спуск итеративно корректирует веса и смещения , постепенно находя наилучшую комбинацию для минимизации потерь.

Градиентный спуск старше — намного старше — чем машинное обучение.

Дополнительную информацию см. в разделе «Линейная регрессия: градиентный спуск в ускоренном курсе машинного обучения».

график

#TensorFlow

В TensorFlow — спецификация вычислений. Узлы графа представляют операции. Ребра являются направленными и представляют собой передачу результата операции ( Tensor ) в качестве операнда в другую операцию. Используйте TensorBoard для визуализации графика.

выполнение графа

#TensorFlow

Среда программирования TensorFlow, в которой программа сначала создает граф , а затем выполняет весь или часть этого графа. Выполнение графа — это режим выполнения по умолчанию в TensorFlow 1.x.

Сравните с нетерпеливым исполнением .

жадная политика

#рл

В обучении с подкреплением — политика , которая всегда выбирает действие с наибольшей ожидаемой отдачей .

заземленность

Свойство модели, выходные данные которой основаны на конкретном исходном материале (основаны на нем). Например, предположим, что вы предоставляете целый учебник физики в качестве входных данных («контекста») для большой языковой модели . Затем вы задаете этой большой языковой модели вопрос по физике. Если ответ модели отражает информацию из этого учебника, то эта модель основана на этом учебнике.

Обратите внимание, что обоснованная модель не всегда является фактической моделью. Например, входной учебник по физике мог содержать ошибки.

основная истина

#основы

Реальность.

То, что произошло на самом деле.

Например, рассмотрим модель бинарной классификации , которая предсказывает, окончит ли студент первого курса университета обучение в течение шести лет. Основная истина для этой модели заключается в том, действительно ли этот студент окончил обучение в течение шести лет.

предвзятость групповой атрибуции

#справедливость

Предполагается, что то, что верно для отдельного человека, верно и для всех членов этой группы. Эффект предвзятости групповой атрибуции может усугубиться, если для сбора данных используется удобная выборка . В нерепрезентативной выборке могут быть сделаны атрибуции, не отражающие реальность.

См. также смещение из-за однородности чужой группы и смещение внутри группы . Также для получения дополнительной информации см. «Справедливость: типы предвзятости в ускоренном курсе машинного обучения».

ЧАС

галлюцинация

#язык

Производство кажущихся правдоподобными, но на самом деле неверных результатов с помощью генеративной модели ИИ , которая якобы делает утверждение о реальном мире. Например, генеративная модель искусственного интеллекта, утверждающая, что Барак Обама умер в 1865 году, является галлюцинацией .

хеширование

В машинном обучении — механизм группировки категориальных данных , особенно когда количество категорий велико, но количество категорий, фактически появляющихся в наборе данных, сравнительно невелико.

Например, на Земле произрастает около 73 000 видов деревьев. Вы можете представить каждую из 73 000 пород деревьев в 73 000 отдельных категориальных сегментах. В качестве альтернативы, если в наборе данных действительно присутствуют только 200 из этих пород деревьев, вы можете использовать хеширование, чтобы разделить виды деревьев примерно на 500 сегментов.

В одном ведре может содержаться несколько пород деревьев. Например, хэширование может поместить баобаб и красный клен — два генетически разных вида — в одно ведро. Несмотря на это, хеширование по-прежнему остается хорошим способом сопоставления больших категориальных наборов с выбранным количеством сегментов. Хеширование превращает категориальный признак, имеющий большое количество возможных значений, в гораздо меньшее количество значений путем группировки значений детерминированным образом.

Дополнительные сведения см. в разделе Категориальные данные: словарный запас и горячее кодирование в ускоренном курсе машинного обучения.

эвристика

Простое и быстро реализуемое решение проблемы. Например: «С помощью эвристики мы достигли точности 86 %. Когда мы перешли на глубокую нейронную сеть, точность выросла до 98 %».

скрытый слой

#основы

Слой нейронной сети между входным слоем (функции) и выходным слоем (прогнозирование). Каждый скрытый слой состоит из одного или нескольких нейронов . Например, следующая нейронная сеть содержит два скрытых слоя: первый с тремя нейронами, а второй с двумя нейронами:

Четыре слоя. Первый слой — это входной слой, содержащий два           функции. Второй слой представляет собой скрытый слой, содержащий три           нейроны. Третий слой — это скрытый слой, содержащий два           нейроны. Четвертый слой — выходной. Каждая функция           содержит три ребра, каждое из которых указывает на отдельный нейрон           во втором слое. Каждый нейрон второго слоя           содержит два ребра, каждое из которых указывает на отдельный нейрон           в третьем слое. Каждый из нейронов третьего слоя содержит           одно ребро, каждое из которых указывает на выходной слой.

Глубокая нейронная сеть содержит более одного скрытого слоя. Например, предыдущая иллюстрация представляет собой глубокую нейронную сеть, поскольку модель содержит два скрытых слоя.

Дополнительную информацию см. в разделе «Нейронные сети: узлы и скрытые слои» ускоренного курса машинного обучения.

иерархическая кластеризация

#кластеризация

Категория алгоритмов кластеризации , создающих дерево кластеров. Иерархическая кластеризация хорошо подходит для иерархических данных, таких как ботаническая таксономия. Существует два типа алгоритмов иерархической кластеризации:

  • Агломеративная кластеризация сначала присваивает каждый пример отдельному кластеру и итеративно объединяет ближайшие кластеры для создания иерархического дерева.
  • Разделительная кластеризация сначала группирует все примеры в один кластер, а затем итеративно делит кластер на иерархическое дерево.

Сравните с кластеризацией на основе центроидов .

Дополнительную информацию см. в разделе «Алгоритмы кластеризации» в курсе «Кластеризация».

восхождение на холм

Алгоритм итеративного улучшения («ходьбы в гору») модели МО до тех пор, пока модель не перестанет улучшаться («достигнет вершины холма»). Общий вид алгоритма следующий:

  1. Постройте стартовую модель.
  2. Создавайте новые модели-кандидаты, внося небольшие изменения в способы обучения или точной настройки . Это может повлечь за собой работу с немного другим обучающим набором или другими гиперпараметрами.
  3. Оцените новые модели-кандидаты и выполните одно из следующих действий:
    • Если модель-кандидат превосходит стартовую модель, то эта модель-кандидат становится новой стартовой моделью. В этом случае повторите шаги 1, 2 и 3.
    • Если ни одна модель не превосходит стартовую, значит, вы достигли вершины холма и должны прекратить итерации.

См. Руководство по настройке глубокого обучения для получения инструкций по настройке гиперпараметров. Инструкции по разработке функций см. в модулях данных ускоренного курса машинного обучения .

потеря шарнира

Семейство функций потерь для классификации, предназначенное для поиска границы решения как можно дальше от каждого обучающего примера, тем самым максимизируя разницу между примерами и границей. KSVM используют шарнирные потери (или связанную с ними функцию, например, квадратичные шарнирные потери). Для бинарной классификации функция шарнирных потерь определяется следующим образом:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

где y — истинная метка, либо -1, либо +1, а y’ — необработанный результат модели классификатора:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Следовательно, график потери шарнира в зависимости от (y * y') выглядит следующим образом:

Декартов график, состоящий из двух соединенных отрезков прямой. Первый           сегмент линии начинается в (-3, 4) и заканчивается в (1, 0). Вторая линия           сегмент начинается в (1, 0) и продолжается бесконечно с наклоном           из 0.

исторический уклон

#справедливость

Тип предвзятости , который уже существует в мире и проник в набор данных. Эти предубеждения имеют тенденцию отражать существующие культурные стереотипы, демографическое неравенство и предубеждения против определенных социальных групп.

Например, рассмотрим классификационную модель , которая прогнозирует, не выполнит ли заявитель на получение кредита дефолт по своему кредиту, которая была обучена на исторических данных о невыплатах по кредитам за 1980-е годы от местных банков в двух разных сообществах. Если бы прошлые заявители из Сообщества А имели в шесть раз больше шансов не выполнить свои обязательства по своим кредитам, чем заявители из Сообщества Б, модель могла бы усвоить историческую предвзятость, в результате чего модель с меньшей вероятностью одобрит кредиты в Сообществе А, даже если исторические условия, которые привели к этому, в этом сообществе более высокие показатели дефолта больше не актуальны.

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

отложенные данные

Примеры намеренно не используются («дотягиваются») во время обучения. Набор данных проверки и набор тестовых данных являются примерами контрольных данных. Данные о несогласии помогают оценить способность вашей модели обобщать данные, отличные от данных, на которых она обучалась. Потери в контрольном наборе обеспечивают лучшую оценку потерь в невидимом наборе данных, чем потери в обучающем наборе.

хозяин

#TensorFlow
#GoogleCloud

При обучении модели МО на чипах-ускорителях (GPU или TPU ) — это часть системы, которая контролирует оба следующих фактора:

  • Общий поток кода.
  • Извлечение и преобразование входного трубопровода.

Хост обычно работает на процессоре, а не на чипе-ускорителе; устройство манипулирует тензорами на чипах ускорителя.

человеческая оценка

#язык
#генеративныйИИ

Процесс, в котором люди оценивают качество результатов модели ML; например, двуязычные люди оценивают качество модели перевода ML. Человеческая оценка особенно полезна для оценки моделей, которые не имеют единственного правильного ответа .

Сравните с автоматической оценкой и оценкой авторами .

человек в курсе (HITL)

#генеративныйИИ

Идиома с неопределенным определением, которая может означать одно из следующих значений:

  • Политика критического или скептического рассмотрения результатов генеративного ИИ. Например, люди, написавшие этот глоссарий машинного обучения, поражены тем, на что способны большие языковые модели , но помнят об ошибках, которые допускают большие языковые модели.
  • Стратегия или система, гарантирующая, что люди помогают формировать, оценивать и совершенствовать поведение модели. Если держать человека в курсе событий, ИИ может извлечь выгоду как из машинного, так и из человеческого интеллекта. Например, система, в которой ИИ генерирует код, который затем проверяют инженеры-программисты, представляет собой систему с участием человека.

гиперпараметр

#основы

Переменные, которые вы или служба настройки гиперпараметровкорректировать во время последовательных запусков обучения модели. Например, скорость обучения является гиперпараметром. Вы можете установить скорость обучения 0,01 перед одной тренировкой. Если вы решите, что 0,01 слишком велико, возможно, вы можете установить скорость обучения на 0,003 для следующей тренировки.

Напротив, параметры — это различные веса и смещения , которые модель изучает во время обучения.

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

гиперплоскость

Граница, разделяющая пространство на два подпространства. Например, линия — это гиперплоскость в двух измерениях, а плоскость — это гиперплоскость в трех измерениях. Чаще всего в машинном обучении гиперплоскость — это граница, разделяющая многомерное пространство. Машины опорных векторов ядра используют гиперплоскости для отделения положительных классов от отрицательных классов, часто в очень многомерном пространстве.

я

иид

Сокращение от независимо и одинаково распределенных .

распознавание изображений

#изображение

Процесс, который классифицирует объект(ы), шаблон(ы) или концепцию(и) на изображении. Распознавание изображений также известно как классификация изображений .

Дополнительные сведения см. в разделе Практикум по машинному обучению: классификация изображений .

Дополнительную информацию см. в курсе ML Practicum: классификация изображений .

несбалансированный набор данных

Синоним набора данных с несбалансированным классом .

неявная предвзятость

#справедливость

Автоматическое создание ассоциации или предположения на основе моделей ума и воспоминаний. Неявная предвзятость может повлиять на следующее:

  • Как данные собираются и классифицируются.
  • Как проектируются и разрабатываются системы машинного обучения.

Например, при построении классификатора для идентификации свадебных фотографий инженер может использовать в качестве признака наличие на фотографии белого платья. Однако белые платья были обычным явлением только в определенные эпохи и в определенных культурах.

См. также предвзятость подтверждения .

вменение

Краткая форма вменения стоимости .

несовместимость показателей справедливости

#справедливость

Идея о том, что некоторые понятия справедливости несовместимы друг с другом и не могут быть удовлетворены одновременно. В результате не существует единого универсального показателя для количественной оценки справедливости, который можно было бы применить ко всем проблемам ОД.

Хотя это может показаться обескураживающим, несовместимость показателей справедливости не означает, что усилия по обеспечению справедливости бесплодны. Вместо этого предполагается, что справедливость должна определяться контекстуально для конкретной проблемы ОД с целью предотвращения вреда, специфичного для случаев ее использования.

См . «О (не)возможности справедливости» для более подробного обсуждения этой темы.

обучение в контексте

#язык
#генеративныйИИ

Синоним « подсказки с несколькими выстрелами» .

независимо и одинаково распределены (iid)

#основы

Данные, полученные из распределения, которое не изменяется и где каждое нарисованное значение не зависит от значений, которые были нарисованы ранее. Iid — это идеальный газ машинного обучения — полезная математическая конструкция, но почти никогда не встречающаяся в реальном мире. Например, распределение посетителей веб-страницы можно отслеживать за короткий промежуток времени; то есть распределение не меняется в течение этого короткого периода, и визит одного человека обычно не зависит от визита другого. Однако если вы расширите это окно времени, могут появиться сезонные различия в посещаемости веб-страницы.

См. также нестационарность .

индивидуальная справедливость

#справедливость

Метрика справедливости, которая проверяет, классифицируются ли похожие люди одинаково. Например, Академия Бробдингнагяна может захотеть обеспечить индивидуальную справедливость, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов имеют равную вероятность поступления.

Обратите внимание, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае оценки и результаты тестов), и вы можете рискнуть создать новые проблемы со справедливостью, если ваш показатель сходства упускает важную информацию (например, строгость оценки учащегося). учебный план).

См . «Справедливость через осведомленность» для более подробного обсуждения индивидуальной справедливости.

вывод

#основы

В машинном обучении — процесс прогнозирования путем применения обученной модели к неразмеченным примерам .

В статистике вывод имеет несколько иной смысл. Подробности смотрите в статье Википедии о статистических выводах .

См. «Обучение с учителем» в курсе «Введение в машинное обучение», чтобы увидеть роль вывода в системе обучения с учителем.

путь вывода

#df

В дереве решений во время вывода маршрут конкретного примера проходит от корня к другим условиям , заканчиваясь листом . Например, в следующем дереве решений более толстые стрелки показывают путь вывода для примера со следующими значениями функций:

  • х = 7
  • у = 12
  • г = -3

Путь вывода на следующей иллюстрации проходит через три состояния, прежде чем достичь листа ( Zeta ).

Дерево решений, состоящее из четырех условий и пяти листьев.           Корневое условие: (x > 0). Поскольку ответ «Да»,           Путь вывода проходит от корня к следующему условию (y > 0).           Поскольку ответ «Да», путь вывода затем идет к           следующее условие (z > 0). Поскольку ответ отрицательный, путь вывода           направляется к своему конечному узлу, который является листом (Зета).

Три толстые стрелки показывают путь вывода.

Дополнительную информацию см. в разделе « Деревья решений» курса «Леса решений».

получение информации

#df

В лесах решений — разница между энтропией узла и взвешенной (по количеству примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

  • энтропия родительского узла = 0,6
  • энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
  • энтропия другого дочернего узла с 24 соответствующими примерами = 0,1

Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Поэтому:

  • взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, информационный выигрыш составляет:

  • Прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
  • прирост информации = 0,6 - 0,14 = 0,46

Большинство раскольников стремятся создать условия , которые максимизируют получение информации.

внутригрупповая предвзятость

#справедливость

Проявление пристрастия к своей группе или собственным характеристикам. Если в число тестировщиков или оценщиков входят друзья, члены семьи или коллеги разработчика машинного обучения, то групповая предвзятость может сделать тестирование продукта или набора данных недействительным.

Внутригрупповая предвзятость — это форма предвзятости групповой атрибуции . См. также предвзятость однородности аут-группы .

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

входной генератор

Механизм загрузки данных в нейронную сеть .

Генератор входных данных можно рассматривать как компонент, отвечающий за обработку необработанных данных в тензоры, которые повторяются для создания пакетов для обучения, оценки и вывода.

входной слой

#основы

Слой нейронной сети , содержащий вектор признаков . То есть входной уровень предоставляет примеры для обучения или вывода . Например, входной слой в следующей нейронной сети состоит из двух функций:

Четыре слоя: входной слой, два скрытых слоя и выходной слой.

в установленном состоянии

#df

В дереве решенийусловие , проверяющее наличие одного элемента в наборе элементов. Например, следующее является встроенным условием:

  house-style in [tudor, colonial, cape]

Во время вывода, если значением признака стиля дома является tudor , colonial или cape , тогда это условие оценивается как Да. Если значение признака стиля дома другое (например, ranch ), то это условие оценивается как Нет.

Условия в наборе обычно приводят к более эффективным деревьям решений, чем условия, которые проверяют функции горячего кодирования .

пример

Синоним , например .

инструкция по настройке

#генеративныйИИ

Форма тонкой настройки , которая улучшает способность генеративной модели ИИ следовать инструкциям. Настройка инструкций включает в себя обучение модели с помощью серии инструкций, обычно охватывающих широкий спектр задач. Полученная в результате модель, настроенная на инструкции, затем имеет тенденцию генерировать полезные ответы на подсказки с нулевым результатом для различных задач.

Сравните и противопоставьте:

интерпретируемость

#основы

Способность объяснять или представлять рассуждения модели ML в понятных для человека терминах.

Например, большинство моделей линейной регрессии легко интерпретируются. (Вам просто нужно посмотреть обученные веса для каждой функции.) Леса решений также легко интерпретируются. Однако некоторые модели требуют сложной визуализации, чтобы их можно было интерпретировать.

Вы можете использовать Инструмент интерпретации обучения (LIT) для интерпретации моделей ML.

межэкспертное соглашение

Измерение того, как часто оценщики соглашаются при выполнении задачи. Если оценщики не согласны с этим, инструкции по выполнению заданий, возможно, придется улучшить. Также иногда называется соглашением между аннотаторами или надежностью между экспертами . См. также каппу Коэна , которая является одним из самых популярных показателей согласия между экспертами.

Дополнительные сведения см. в разделе Категориальные данные: распространенные проблемы ускоренного курса машинного обучения.

пересечение через объединение (IoU)

#изображение

Пересечение двух множеств, разделенных их объединением. В задачах машинного обучения по обнаружению изображений IoU используется для измерения точности прогнозируемой ограничивающей рамки модели по отношению к истинной ограничивающей рамке. В этом случае IoU для двух блоков представляет собой соотношение между перекрывающейся площадью и общей площадью, а его значение варьируется от 0 (нет перекрытия прогнозируемой ограничивающей рамки и основной истинной ограничительной рамки) до 1 (прогнозируемая ограничивающая рамка и основная ограничивающая рамка). -правда ограничивающая рамка имеет точно такие же координаты).

Например, на изображении ниже:

  • Предсказанная ограничивающая рамка (координаты, определяющие место расположения ночного столика на картине, по прогнозам модели) обведена фиолетовым контуром.
  • Ограничивающая рамка основной истины (координаты, определяющие место фактического расположения ночного столика на картине) обведена зеленым контуром.

Картина Ван Гога «Спальня Винсента в Арле» с двумя разными           ограничивающие коробки вокруг ночного столика рядом с кроватью. Основная истина           Ограничивающая рамка (зеленого цвета) идеально очерчивает ночной столик.           прогнозируемая ограничивающая рамка (фиолетового цвета) смещена на 50 % вниз и вправо.           ограничивающей рамки истинной истины; он охватывает правую нижнюю четверть           ночного столика, но не попадает в остальную часть стола.

Здесь пересечение ограничивающих рамок для предсказания и основной истины (внизу слева) равно 1, а объединение ограничивающих рамок для предсказания и основной истины (внизу справа) равно 7, поэтому IoU равен \(\frac{1}{7}\).

То же изображение, что и выше, но каждая ограничивающая рамка разделена на четыре части.           квадранты. Всего существует семь квадрантов, как показано в правом нижнем углу.           квадрант ограничивающей рамки основной истины и верхний левый           квадранты прогнозируемой ограничивающей рамки перекрывают друг друга. Этот           перекрывающаяся часть (выделена зеленым) представляет собой           пересечение и имеет площадь 1.То же изображение, что и выше, но каждая ограничивающая рамка разделена на четыре части.           квадранты. Всего существует семь квадрантов, как показано в правом нижнем углу.           квадрант ограничивающей рамки основной истины и верхний левый           квадранты прогнозируемой ограничивающей рамки перекрывают друг друга.           Весь интерьер окружен обеими ограничивающими рамками.           (выделено зеленым) представляет профсоюз и имеет           площадь 7.

долг

Аббревиатура для пересечения над объединением .

матрица элементов

#recsystems

В рекомендательных системах - матрица векторов внедрения, созданная путем матричной факторизации и содержащая скрытые сигналы о каждом элементе . Каждая строка матрицы элементов содержит значение одного скрытого признака для всех элементов. Например, рассмотрим систему рекомендаций фильмов. Каждый столбец в матрице элементов представляет один фильм. Скрытые сигналы могут представлять жанры или могут быть более сложными для интерпретации сигналами, которые включают сложное взаимодействие между жанром, звездами, возрастом кино или другими факторами.

Матрица элементов имеет то же количество столбцов, что и целевая матрица, которая подвергается факторизации. Например, если система рекомендаций фильмов оценивает 10 000 названий фильмов, матрица элементов будет содержать 10 000 столбцов.

предметы

#recsystems

В рекомендательной системе — объекты, которые рекомендует система. Например, видео — это товары, которые рекомендует видеомагазин, а книги — это товары, которые рекомендует книжный магазин.

итерация

#основы

Одно обновление параметров моделивесов и смещений модели — во время обучения . Размер пакета определяет, сколько примеров модель обрабатывает за одну итерацию. Например, если размер пакета равен 20, модель обрабатывает 20 примеров перед корректировкой параметров.

При обучении нейронной сети одна итерация включает в себя следующие два прохода:

  1. Прямой проход для оценки потерь в одной партии.
  2. Обратный проход ( обратное распространение ошибки ) для настройки параметров модели на основе потерь и скорости обучения.

Дж

ДЖАКС

Библиотека вычислений с массивами, объединяющая XLA (ускоренную линейную алгебру) и автоматическое дифференцирование для высокопроизводительных числовых вычислений. JAX предоставляет простой и мощный API для написания ускоренного числового кода с возможностью компоновки преобразований. JAX предоставляет такие функции, как:

  • grad (автоматическое дифференцирование)
  • jit (компиляция точно в срок)
  • vmap (автоматическая векторизация или пакетная обработка)
  • pmap (распараллеливание)

JAX — это язык для выражения и составления преобразований числового кода, аналогичный, но гораздо более широкий по объему, библиотеке Python NumPy . (Фактически, библиотека .numpy в JAX является функционально эквивалентной, но полностью переписанной версией библиотеки Python NumPy.)

JAX особенно хорошо подходит для ускорения многих задач машинного обучения за счет преобразования моделей и данных в форму, подходящую для параллелизма между чипами-ускорителями GPU и TPU .

Flax , Optax , Pax и многие другие библиотеки построены на инфраструктуре JAX.

К

Керас

Популярный API машинного обучения Python. Keras работает на нескольких платформах глубокого обучения, включая TensorFlow, где он доступен как tf.keras .

Машины опорных векторов ядра (KSVM)

Алгоритм классификации, который стремится максимизировать разницу между положительными и отрицательными классами путем сопоставления векторов входных данных с пространством более высокой размерности. Например, рассмотрим задачу классификации, в которой входной набор данных имеет сотню признаков. Чтобы максимизировать разницу между положительными и отрицательными классами, KSVM может внутренне отображать эти функции в пространство миллиона измерений. KSVM использует функцию потерь, называемую шарнирной потерей .

ключевые точки

#изображение

Координаты отдельных объектов на изображении. Например, для модели распознавания изображений , которая различает виды цветов, ключевыми точками могут быть центр каждого лепестка, стебель, тычинка и т. д.

k-кратная перекрестная проверка

Алгоритм прогнозирования способности модели обобщать новые данные. k в k-кратном значении означает количество равных групп, на которые вы делите примеры набора данных; то есть вы тренируете и тестируете свою модель k раз. Для каждого раунда обучения и тестирования отдельная группа является тестовым набором, а все оставшиеся группы становятся обучающим набором. После k раундов обучения и тестирования вы рассчитываете среднее и стандартное отклонение выбранных показателей теста.

Например, предположим, что ваш набор данных состоит из 120 примеров. Далее предположим, что вы решили установить k равным 4. Поэтому после перетасовки примеров вы делите набор данных на четыре равные группы по 30 примеров и проводите четыре раунда обучения и тестирования:

Набор данных, разбитый на четыре равные группы примеров. В первом раунде           первые три группы используются для обучения, а последняя группа           используется для тестирования. Во втором туре первые две группы и последняя           группа используется для обучения, а третья группа используется для           тестирование. В третьем туре первая группа и две последние группы разыгрываются.           используется для обучения, а вторая группа используется для тестирования.           В четвертом раунде первая группа используется для тестирования, а финальная           Для обучения используются три группы.

Например, среднеквадратическая ошибка (MSE) может быть наиболее значимым показателем для модели линейной регрессии. Таким образом, вы найдете среднее и стандартное отклонение MSE для всех четырех раундов.

k-средство

#кластеризация

Популярный алгоритм кластеризации , группирующий примеры при обучении без учителя. Алгоритм k-средних в основном делает следующее:

  • Итеративно определяет k лучших центральных точек (известных как центроиды ).
  • Назначает каждый пример ближайшему центроиду. Примеры, ближайшие к одному и тому же центроиду, принадлежат к одной группе.

Алгоритм k-средних выбирает местоположения центроидов, чтобы минимизировать совокупный квадрат расстояний от каждого примера до ближайшего к нему центроида.

Например, рассмотрим следующий график зависимости высоты собаки от ширины собаки:

Декартов график с несколькими десятками точек данных.

Если k=3, алгоритм k-средних определит три центроида. Каждому примеру присваивается ближайший к нему центроид, что дает три группы:

Тот же декартовский график, что и на предыдущей иллюстрации, за исключением           с добавлением трех центроидов.           Предыдущие точки данных сгруппированы в три отдельные группы:           каждая группа представляет точки данных, наиболее близкие к определенному           центроид.

Представьте, что производитель хочет определить идеальные размеры маленьких, средних и больших свитеров для собак. Три центроида определяют среднюю высоту и среднюю ширину каждой собаки в этом кластере. Таким образом, производителю, вероятно, следует основывать размеры свитеров на этих трех центроидах. Обратите внимание, что центроид кластера обычно не является примером в кластере.

На предыдущих иллюстрациях показаны k-средние для примеров только с двумя признаками (высотой и шириной). Обратите внимание, что k-средние могут группировать примеры по множеству функций.

k-медиана

#кластеризация

Алгоритм кластеризации, тесно связанный с k-means . Практическая разница между ними заключается в следующем:

  • В k-средних центроиды определяются путем минимизации суммы квадратов расстояния между кандидатом на центроид и каждым из его примеров.
  • В k-медиане центроиды определяются путем минимизации суммы расстояний между кандидатом на центроид и каждым из его примеров.

Обратите внимание, что определения расстояния также различаются:

  • k-means опирается на евклидово расстояние от центроида до примера. (В двух измерениях евклидово расстояние означает использование теоремы Пифагора для расчета гипотенузы.) Например, k-среднее расстояние между (2,2) и (5,-2) будет следующим:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-медиана основана на манхэттенском расстоянии от центроида до примера. Это расстояние представляет собой сумму абсолютных дельт в каждом измерении. Например, k-медианное расстояние между (2,2) и (5,-2) будет следующим:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

л

L 0 регуляризация

#основы

Тип регуляризации , который штрафует общее количество ненулевых весов в модели. Например, модель, имеющая 11 ненулевых весов, будет оштрафована больше, чем аналогичная модель, имеющая 10 ненулевых весов.

Регуляризацию L0 иногда называют регуляризацией L0-нормы .

L 1 потеря

#основы

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 1 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Абсолютное значение дельты
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Потери L1 менее чувствительны к выбросам, чем потери L2 .

Средняя абсолютная ошибка — это средняя потеря L 1 на пример.

L 1 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме абсолютных значений весов. Регуляризация L 1 помогает довести веса нерелевантных или едва релевантных функций ровно до 0 . Элемент с весом 0 фактически удаляется из модели.

В отличие от регуляризации L2 .

L 2 потеря

#основы

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 2 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Площадь дельты
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = потеря L 2

Из-за возведения в квадрат потеря L2 усиливает влияние выбросов . То есть потеря L2 сильнее реагирует на плохие прогнозы, чем потеря L1 . Например, потеря L 1 для предыдущей партии будет равна 8, а не 16. Обратите внимание, что на один выброс приходится 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используются потери L2 .

Среднеквадратическая ошибка — это средняя потеря L 2 на пример. Квадратные потери — это другое название потерь L2 .

L 2 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме квадратов весов. Регуляризация L 2 помогает приблизить веса выбросов (с высокими положительными или низкими отрицательными значениями) к 0, но не совсем к 0 . Объекты со значениями, очень близкими к 0, остаются в модели, но не сильно влияют на прогноз модели.

Регуляризация L2 всегда улучшает обобщение в линейных моделях .

В отличие от регуляризации L 1 .

этикетка

#основы

В контролируемом машинном обучении — часть примера «ответ» или «результат».

Каждый помеченный пример состоит из одного или нескольких объектов и метки. Например, в наборе данных для обнаружения спама метка, вероятно, будет либо «спам», либо «не спам». В наборе данных об осадках меткой может быть количество дождя, выпавшего за определенный период.

помеченный пример

#основы

Пример, содержащий одну или несколько функций и метку . Например, в следующей таблице показаны три помеченных примера из модели оценки дома, каждый из которых имеет три характеристики и одну метку:

Количество спален Количество ванных комнат Возраст дома Цена дома (этикетка)
3 2 15 345 000 долларов США
2 1 72 179 000 долларов США
4 2 34 392 000 долларов США

В контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .

Сравните помеченный пример с немаркированными примерами.

утечка этикетки

Недостаток дизайна модели, при котором признак является прокси-сервером метки . Например, рассмотрим модель бинарной классификации , которая предсказывает, купит ли потенциальный клиент конкретный продукт. Предположим, что одной из функций модели является логическое значение с именем SpokeToCustomerAgent . Далее предположим, что агент по работе с клиентами назначается только после того, как потенциальный клиент фактически приобрел продукт. В ходе обучения модель быстро выучит связь между SpokeToCustomerAgent и меткой.

лямбда

#основы

Синоним коэффициента регуляризации .

Лямбда — перегруженный термин. Здесь мы сосредоточимся на определении этого термина в рамках регуляризации .

LaMDA (Языковая модель для диалоговых приложений)

#язык

Модель большого языка на основе Transformer , разработанная Google, обученная на большом наборе диалоговых данных, которая может генерировать реалистичные разговорные ответы.

LaMDA: наша революционная технология общения дает обзор.

достопримечательности

#изображение

Синоним ключевых точек .

языковая модель

#язык

Модель , которая оценивает вероятность появления токена или последовательности токенов в более длинной последовательности токенов.

большая языковая модель

#язык

Как минимум, языковая модель, имеющая очень большое количество параметров . Говоря более неформально, любая языковая модель на основе Transformer , например Gemini или GPT .

скрытое пространство

#язык

Синоним встраивания пространства .

слой

#основы

Набор нейронов в нейронной сети . Три распространенных типа слоев:

Например, на следующем рисунке показана нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

В TensorFlow слои также являются функциями Python, которые принимают тензоры и параметры конфигурации в качестве входных данных и создают другие тензоры в качестве выходных данных.

API слоев (tf.layers)

#TensorFlow

API TensorFlow для построения глубокой нейронной сети как композиции слоев. Layers API позволяет создавать различные типы слоев , например:

API слоев соответствует соглашениям API слоев Keras . То есть, за исключением другого префикса, все функции в API слоев имеют те же имена и подписи, что и их аналоги в API слоев Keras.

лист

#df

Любая конечная точка в дереве решений . В отличие от условия , лист не выполняет проверку. Скорее, лист – возможное предсказание. Лист также является конечным узлом пути вывода .

Например, следующее дерево решений содержит три листа:

Дерево решений с двумя условиями, ведущими к трем листьям.

Инструмент обучения интерпретации (LIT)

Визуальный интерактивный инструмент для понимания моделей и визуализации данных.

Вы можете использовать LIT с открытым исходным кодом для интерпретации моделей или визуализации текста, изображений и табличных данных.

скорость обучения

#основы

Число с плавающей запятой, которое сообщает алгоритму градиентного спуска, насколько сильно корректировать веса и смещения на каждой итерации . Например, скорость обучения 0,3 будет корректировать веса и смещения в три раза эффективнее, чем скорость обучения 0,1.

Скорость обучения — ключевой гиперпараметр . Если вы установите слишком низкую скорость обучения, обучение займет слишком много времени. Если вы установите слишком высокую скорость обучения, градиентный спуск часто не сможет достичь сходимости .

регрессия по методу наименьших квадратов

Модель линейной регрессии, обученная путем минимизации потерь L 2 .

Расстояние Левенштейн

#язык
#метрика

Метрика расстояния редактирования , которая рассчитывает наименьшее количество операций удаления, вставки и замены, необходимых для замены одного слова на другое. Например, расстояние Левенштейна между словами «сердце» и «дротики» равно трем, потому что следующие три редактирования — это наименьшее количество изменений, позволяющих превратить одно слово в другое:

  1. сердце → дорогая (замените «h» на «d»)
  2. дорогой → дротик (удалить «е»)
  3. дротик → дартс (вставить «s»)

Обратите внимание, что предыдущая последовательность — не единственный путь из трех изменений.

линейный

#основы

Связь между двумя или более переменными, которую можно представить исключительно посредством сложения и умножения.

Участок линейной зависимости представляет собой линию.

В отличие от нелинейного .

линейная модель

#основы

Модель , которая присваивает каждому признаку один вес для прогнозирования . (Линейные модели также включают в себя смещение .) Напротив, в глубоких моделях взаимосвязь признаков с предсказаниями обычно нелинейна .

Линейные модели обычно легче обучать и более интерпретировать, чем глубокие модели. Однако глубокие модели могут изучать сложные взаимосвязи между функциями.

Линейная регрессия и логистическая регрессия — это два типа линейных моделей.

линейная регрессия

#основы

Тип модели машинного обучения, в которой выполняются оба следующих условия:

Сравните линейную регрессию с логистической регрессией . Кроме того, сравните регрессию с классификацией .

ЛИТ

Аббревиатура для Learning Interpretability Tool (LIT) , ранее известного как Language Interpretability Tool.

Магистр права

#язык
#генеративныйИИ

Аббревиатура для большой языковой модели .

LLM оценки (оценки)

#язык
#генеративныйИИ

Набор метрик и тестов для оценки производительности больших языковых моделей (LLM). На высоком уровне оценки LLM:

  • Помогите исследователям определить области, где LLM нуждается в улучшении.
  • Полезны для сравнения различных LLM и определения лучшего LLM для конкретной задачи.
  • Помогите гарантировать, что использование LLM безопасно и этически.

логистическая регрессия

#основы

Тип регрессионной модели , прогнозирующей вероятность. Модели логистической регрессии имеют следующие характеристики:

  • Ярлык категоричен . Термин логистическая регрессия обычно относится к бинарной логистической регрессии , то есть к модели, которая вычисляет вероятности для меток с двумя возможными значениями. Менее распространенный вариант — полиномиальная логистическая регрессия — вычисляет вероятности для меток с более чем двумя возможными значениями.
  • Функция потерь во время обучения — Log Loss . (Несколько единиц журнальных потерь можно разместить параллельно для меток с более чем двумя возможными значениями.)
  • Модель имеет линейную архитектуру, а не глубокую нейронную сеть. Однако оставшаяся часть этого определения также применима к глубоким моделям , которые предсказывают вероятности для категориальных меток.

Например, рассмотрим модель логистической регрессии, которая вычисляет вероятность того, что входящее электронное письмо является спамом или не является спамом. Во время вывода предположим, что модель предсказывает 0,72. Таким образом, модель оценивает:

  • Вероятность того, что письмо окажется спамом, составляет 72%.
  • Вероятность того, что письмо не окажется спамом, составляет 28%.

Модель логистической регрессии использует следующую двухэтапную архитектуру:

  1. Модель генерирует необработанный прогноз (y'), применяя линейную функцию входных объектов.
  2. Модель использует это необработанное предсказание в качестве входных данных для сигмовидной функции , которая преобразует необработанное предсказание в значение от 0 до 1, исключая.

Как и любая регрессионная модель, модель логистической регрессии предсказывает число. Однако это число обычно становится частью модели двоичной классификации следующим образом:

  • Если прогнозируемое число превышает порог классификации , модель двоичной классификации прогнозирует положительный класс.
  • Если прогнозируемое число меньше порога классификации, модель двоичной классификации прогнозирует отрицательный класс.

логиты

Вектор необработанных (ненормализованных) прогнозов, генерируемый моделью классификации, который обычно затем передается в функцию нормализации. Если модель решает задачу классификации нескольких классов , логиты обычно становятся входными данными для функции softmax . Затем функция softmax генерирует вектор (нормализованных) вероятностей с одним значением для каждого возможного класса.

Потеря журнала

#основы

Функция потерь, используемая в бинарной логистической регрессии .

логарифмические шансы

#основы

Логарифм шансов какого-либо события.

Длинная краткосрочная память (LSTM)

#seq

Тип ячейки в рекуррентной нейронной сети, используемый для обработки последовательностей данных в таких приложениях, как распознавание рукописного текста, машинный перевод и создание титров к изображениям. LSTM решают проблему исчезновения градиента , которая возникает при обучении RNN из-за длинных последовательностей данных, путем сохранения истории в состоянии внутренней памяти на основе новых входных данных и контекста из предыдущих ячеек в RNN.

ЛоРА

#язык
#генеративныйИИ

Аббревиатура для адаптивности низкого ранга .

потеря

#основы

Во время обучения модели с учителем — это показатель того, насколько далеко предсказание модели находится от ее метки .

Функция потерь вычисляет потери.

агрегатор потерь

Тип алгоритма машинного обучения , который повышает производительность модели за счет объединения прогнозов нескольких моделей и использования этих прогнозов для создания одного прогноза. В результате агрегатор потерь может уменьшить дисперсию прогнозов и повысить их точность .

кривая потерь

#основы

График потерь как функция количества обучающих итераций . На следующем графике показана типичная кривая потерь:

Декартовский график потерь в сравнении с обучающими итерациями, показывающий           быстрое падение потерь на начальных итерациях с последующим постепенным           падение, а затем пологий наклон во время последних итераций.

Кривые потерь могут помочь вам определить, когда ваша модель сходится или переоснащается .

Кривые потерь могут отображать все следующие типы потерь:

См. также кривую обобщения .

функция потерь

#основы

Во время обучения или тестирования — математическая функция, вычисляющая потери на серии примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.

Целью обучения обычно является минимизация потерь, которые возвращает функция потерь.

Существует множество различных видов функций потерь. Выберите соответствующую функцию потерь для модели, которую вы строите. Например:

поверхность потерь

График зависимости веса(ов) от потери. Градиентный спуск направлен на поиск веса(ов), для которого поверхность потерь находится на локальном минимуме.

Адаптивность низкого ранга (LoRA)

#язык
#генеративныйИИ

Эффективный по параметрам метод точной настройки , который «замораживает» предварительно обученные веса модели (таким образом, что их больше нельзя изменить), а затем вставляет в модель небольшой набор обучаемых весов. Этот набор обучаемых весов (также известный как «матрицы обновления») значительно меньше, чем базовая модель, и поэтому обучается гораздо быстрее.

LoRA предоставляет следующие преимущества:

  • Улучшает качество прогнозов модели для области, к которой применяется точная настройка.
  • Точная настройка выполняется быстрее, чем методы, требующие точной настройки всех параметров модели.
  • Снижает вычислительные затраты на вывод , позволяя одновременно обслуживать несколько специализированных моделей, использующих одну и ту же базовую модель.

LSTM

#seq

Аббревиатура для длинной кратковременной памяти .

М

машинное обучение

#основы

Программа или система, которая обучает модель на основе входных данных. Обученная модель может делать полезные прогнозы на основе новых (никогда ранее не встречавшихся) данных, полученных из того же распределения, которое использовалось для обучения модели.

Машинное обучение также относится к области исследования, связанной с этими программами или системами.

машинный перевод

#генеративныйИИ

Использование программного обеспечения (как правило, модель машинного обучения) для преобразования текста из одного человеческого языка в другой человеческий язык, например, от английского в японский.

класс большинства

#основы

Более распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, отрицательные метки представляют собой класс большинства.

Контраст с классом меньшинства .

Процесс принятия решений Маркова (MDP)

#рл

График, представляющий модель принятия решений, где решения (или действия ) принимаются для навигации по последовательности состояний в соответствии с предположением, что свойство Маркова . В обучении подкрепления эти переходы между государствами возвращают численную награду .

Марковское свойство

#рл

Свойство определенных сред , где переходы состояния полностью определяются информацией, подразумеваемой в текущем состоянии и действии агента.

Модель в масках

#язык

Языковая модель , которая прогнозирует вероятность того, что токены -кандидаты заполняют пробелы в последовательности. Например, модель маскированного языка может рассчитать вероятности для кандидата в слова для замены подчеркивания в следующем предложении:

____ в шляпе вернулся.

В литературе обычно используется строка «маска» вместо подчеркивания. Например:

«Маска» в шляпе вернулась.

Большинство современных моделей в масках языка являются двунаправленными .

matplotlib

Библиотека с открытым исходным кодом Python 2D. Matplotlib помогает вам визуализировать различные аспекты машинного обучения.

Матричная факторизация

#recsystems

В математике механизм для поиска матриц, точечный продукт которого приближается к целевой матрице.

В системах рекомендаций целевая матрица часто имеет рейтинги пользователей по элементам . Например, целевая матрица для системы рекомендаций фильма может выглядеть как -то вроде следующего, где позитивные целые числа являются рейтингами пользователей, а 0 означает, что пользователь не оценил фильм:

Касабланка Филадельфийская история Черная Пантера Чудо-женщина Криминальное чтиво
Пользователь 1 5.0 3.0 0,0 2.0 0,0
Пользователь 2 4.0 0,0 0,0 1.0 5.0
Пользователь 3 3.0 1.0 4.0 5.0 0,0

Система рекомендаций фильма направлена ​​на то, чтобы предсказать рейтинги пользователей для безрезультатных фильмов. Например, будет ли пользователь 1 нравится Black Panther ?

Одним из подходов к системам рекомендаций является использование факторизации матрицы для генерации следующих двух матриц:

Например, использование факторизации матрицы на наших трех пользователях и пять элементов может дать следующую матрицу пользователя и матрицу элементов:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Точечный продукт пользовательской матрицы и матрицы элементов дает матрицу рекомендации, которая содержит не только оригинальные рейтинги пользователей, но и прогнозы для фильмов, которых каждый пользователь не видел. Например, рассмотрим рейтинг пользователя 1 Casablanca , который был 5,0. Продукт DOT, соответствующий этой ячейке в матрице рекомендаций, должен быть около 5,0, и это:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Что еще более важно, будет ли пользователь 1, как Black Panther ? Принимая точечный продукт, соответствующий первой строке, а третий столбец дает прогнозируемый рейтинг 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Матрицкая факторизация обычно дает пользовательскую матрицу и матрицу элемента, которая вместе является значительно более компактной, чем целевая матрица.

Средняя абсолютная ошибка (MAE)

Средняя потеря на пример, когда используется потеря L 1 . Рассчитайте среднюю абсолютную ошибку следующим образом:

  1. Рассчитайте потерю L 1 для партии.
  2. Разделите потерю L 1 на количество примеров в партии.

Например, рассмотрим расчет потери L 1 на следующей партии из пяти примеров:

Фактическая стоимость примера Прогнозируемая ценность модели Потеря (разница между фактическим и предсказанным)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Таким образом, потеря 1 1 - 8, а количество примеров - 5. Следовательно, средняя абсолютная ошибка - это:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Контрастная средняя абсолютная ошибка с средней квадратной ошибкой и средней квадратной ошибкой .

Средняя средняя точность в K (map@k)

#язык
#генеративныйИИ

Статистическое среднее из всей средней точности при оценках K по набору данных проверки. Одним из использования средней средней точности в K является оценка качества рекомендаций, генерируемых системой рекомендаций .

Хотя фраза «средний средний» звучит избыточно, имя метрики подходит. В конце концов, этот показатель находит среднее значение множественной средней точности при значениях K.

Средняя квадратная ошибка (MSE)

Средняя потеря на пример, когда используется потеря L 2 . Рассчитайте среднюю квадратную ошибку следующим образом:

  1. Рассчитайте потерю L 2 для партии.
  2. Разделите потерю L 2 на количество примеров в партии.

Например, рассмотрим потерю по следующей партии из пяти примеров:

Фактическая стоимость Прогноз модели Потеря Квадратная потеря
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = потеря L 2

Следовательно, средняя квадратная ошибка:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Средняя квадратная ошибка является популярным оптимизатором обучения, особенно для линейной регрессии .

Контрастная средняя квадратная ошибка со средней абсолютной ошибкой и средней квадратной ошибкой .

Playground TensorFlow использует среднюю квадратную ошибку для расчета значений потерь.

сетка

#TensorFlow
#Googlecloud

При параллельном программировании ML термин, связанный с назначением данных и модели для чипов TPU, и определения того, как эти значения будут оскорблены или воспроизведены.

Сетка - это перегруженный термин, который может означать любое из следующего:

  • Физическая планировка чипсов TPU.
  • Абстрактная логическая конструкция для отображения данных и модели с чипами TPU.

В любом случае, сетка указана как форма .

Мета-обучение

#язык

Подмножество машинного обучения, которое обнаруживает или улучшает алгоритм обучения. Система мета-обучения также может стремиться к обучению модели для быстрого изучения новой задачи из небольшого количества данных или из-за опыта, полученного в предыдущих задачах. Алгоритмы мета-обучения обычно пытаются достичь следующего:

  • Улучшить или изучить ручные функции (такие как инициализатор или оптимизатор).
  • Будьте более эффективными и вычислимыми.
  • Улучшить обобщение.

Мета-обучение связано с несколькими выстрелами .

метрика

#TensorFlow

Статистика, о которой вы заботитесь.

Цель - это показатель, который система машинного обучения пытается оптимизировать.

Metrics API (tf.metrics)

API TensorFlow для оценки моделей. Например, tf.metrics.accuracy определяет, как часто прогнозы модели соответствуют метки.

мини-партия

#основы

Небольшая случайно выбранная часть пакета, обработанная за одну итерацию . Размер мини-партии обычно составляет от 10 до 1000 экземпляров.

Например, предположим, что весь обучающий набор (полный пакет) состоит из 1000 примеров. Далее предположим, что вы установили размер каждой мини-партии равным 20. Таким образом, каждая итерация определяет потери в случайных 20 примерах из 1000, а затем соответствующим образом корректирует веса и смещения .

Гораздо эффективнее рассчитать потери для мини-партии, чем для всех примеров в полной партии.

мини-партийный стохастический градиент спуск

Алгоритм градиентного спуска , который использует мини-партии . Другими словами, мини-партийный стохастический градиент спуск оценивает градиент на основе небольшого подмножества обучающих данных. Обычный стохастический градиент спуск использует мини-партию размера 1.

Минимакс потеря

Функция потерь для генеративных состязательных сетей , основанной на перекрестной энтропии между распределением сгенерированных данных и реальными данными.

Потеря минимакса используется в первой статье для описания генеративных состязательных сетей.

класс меньшинства

#основы

Менее распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, положительные метки представляют собой класс меньшинства.

Контраст с классом большинства .

Смесь экспертов

#язык
#генеративныйИИ

Схема повышения эффективности нейронной сети , используя только подмножество параметров (известных как эксперт ) для обработки данного входного токена или примера . Сетевая сеть маршрутирует каждый входной токен или пример для соответствующего эксперта.

Для получения подробной информации см. Любую из следующих документов:

МЛ

Аббревиатура для машинного обучения .

Мит

#язык
#изображение
#генеративныйИИ

Сокращение для мультимодальной инструкции .

Мнист

#изображение

Набор данных об общедоступном домане, составленный Lecun, Cortes и Burges, содержащий 60 000 изображений, каждое изображение, показывающее, как человек вручную написал определенную цифру от 0–9. Каждое изображение хранится как массив целых чисел 28x28, где каждое целое число представляет собой значение серого от 0 до 255, включительно.

MNIST - это канонический набор данных для машинного обучения, часто используемый для тестирования новых подходов машинного обучения. Для получения подробной информации см. Базу данных MNIST рукописных цифр .

модальность

#язык

Категория данных высокого уровня. Например, цифры, текст, изображения, видео и аудио - это пять различных модальностей.

модель

#основы

В общем, любая математическая конструкция, которая обрабатывает входные данные и возвращает выходные данные. Другими словами, модель — это набор параметров и структуры, необходимые системе для прогнозирования. В контролируемом машинном обучении модель принимает пример в качестве входных данных и выводит прогноз в качестве выходных данных. В рамках контролируемого машинного обучения модели несколько различаются. Например:

  • Модель линейной регрессии состоит из набора весов и смещения .
  • Модель нейронной сети состоит из:
    • Набор скрытых слоев , каждый из которых содержит один или несколько нейронов .
    • Веса и смещение, связанные с каждым нейроном.
  • Модель дерева решений состоит из:
    • Форма дерева; то есть шаблон, по которому соединяются условия и листья.
    • Условия и отпуск.

Вы можете сохранить, восстановить или сделать копии модели.

Машинное обучение без учителя также генерирует модели, обычно функцию, которая может сопоставить входной пример с наиболее подходящим кластером .

модель емкости

Сложность проблем, которые модель может изучить. Чем сложнее проблемы, которые может изучить модель, тем выше способность модели. Емкость модели обычно увеличивается с количеством параметров модели. Для формального определения емкости классификатора см. Dimension VC .

модель каскада

#генеративныйИИ

Система, которая выбирает идеальную модель для конкретного запроса вывода.

Представьте себе группу моделей, от очень больших (много параметров ) до гораздо меньших (гораздо меньших параметров). Очень крупные модели потребляют больше вычислительных ресурсов во время вывода , чем более мелкие модели. Тем не менее, очень крупные модели, как правило, могут вывести более сложные запросы, чем более мелкие модели. Модель каскада определяет сложность запроса вывода, а затем выбирает соответствующую модель для выполнения вывода. Основной мотивацией для модели каскада является снижение затрат на вывод путем в целом выбора более мелких моделей и выбора только более крупной модели для более сложных запросов.

Представьте, что небольшая модель работает по телефону, и большая версия этой модели работает на удаленном сервере. Хорошая модель каскада снижает стоимость и задержку, позволяя меньшей модели обрабатывать простые запросы и вызывая только удаленную модель для обработки сложных запросов.

См. Также модельный маршрутизатор .

модель параллелизма

#язык

Способ масштабирования обучения или вывода, который ставит разные части одной модели на разные устройства . Параллелизм модели позволяет слишком большим моделям, чтобы соответствовать одному устройству.

Чтобы реализовать параллелизм модели, система обычно выполняет следующее:

  1. Шарсы (делят) модель на более мелкие части.
  2. Распределяет обучение этих небольших деталей по нескольким процессорам. Каждый процессор обучает свою часть модели.
  3. Сочетает результаты, чтобы создать одну модель.

Модель параллелизма замедляет тренировки.

См. Также параллелизм данных .

модельный маршрутизатор

#генеративныйИИ

Алгоритм, который определяет идеальную модель для вывода в каскаде модели . Модельный маршрутизатор сама по себе является моделью машинного обучения, которая постепенно узнает, как выбрать лучшую модель для данного ввода. Тем не менее, модельный маршрутизатор иногда может быть более простым, не машино-обучением алгоритма.

Обучение модели

Процесс определения лучшей модели .

МЧС

#язык
#изображение
#генеративныйИИ

Сокращение для смеси экспертов .

Импульс

Сложный алгоритм спуска градиента, в котором этап обучения зависит не только от производной на нынешнем этапе, но и от производных шагов, которые немедленно предшествовали ему. Импульс включает в себя вычисление экспоненциально взвешенного скользящего скользящего градиентов с течением времени, аналогично импульсу в физике. Импульс иногда мешает обучению застрять в местных минимумах.

МТ

#генеративныйИИ

Аббревиатура для машинного перевода .

многоклассовая классификация

#основы

В контролируемом обучении — задача классификации , в которой набор данных содержит более двух классов меток. Например, метки в наборе данных Iris должны относиться к одному из следующих трех классов:

  • Ирис сетоза
  • Ирис виргинский
  • Ирис разноцветный

Модель, обученная на наборе данных Iris, которая прогнозирует тип Iris на новых примерах, выполняет многоклассовую классификацию.

Напротив, проблемы классификации, которые различают ровно два класса, представляют собой модели бинарной классификации . Например, модель электронной почты, которая прогнозирует наличие спама или его отсутствие, представляет собой модель бинарной классификации.

В задачах кластеризации многоклассовая классификация относится к более чем двум кластерам.

Многокласскую логистическую регрессию

Использование логистической регрессии в многоклассных задачах классификации .

мульти-головное самопринятие

#язык

Расширение самоубийства , которое применяет механизм самостоятельного прихода несколько раз для каждой позиции в входной последовательности.

Трансформеры ввели мульти-головное самоуничтожение.

Мультимодальная инструкция

#язык

Модель , настроенная на инструкции , которая может обрабатывать ввод за пределами текста, такой как изображения, видео и аудио.

Мультимодальная модель

#язык

Модель, входные данные и/или выходы, включают в себя более одного модальности . Например, рассмотрим модель, которая принимает как изображение, так и текстовую подпись (два модальности) в качестве функций , и выводит оценку, указывающую, насколько уместна текстовая подпись для изображения. Таким образом, входные данные этой модели являются мультимодальными, а выход - унимодальный.

многономиальная классификация

Синоним для многоклассовой классификации .

многономиальная регрессия

Синоним многоклассовой логистической регрессии .

многозадачность

Техника машинного обучения, в которой одна модель обучена выполнять несколько задач .

Многозадачные модели создаются путем обучения данных, которые подходят для каждой из различных задач. Это позволяет модели научиться делиться информацией по задачам, что помогает модели учиться более эффективно.

Модель, обученная для нескольких задач, часто имеет улучшенные способности обобщения и может быть более надежной при обработке различных типов данных.

Н

НАНА ЛУПА

Когда одно число в вашей модели становится NAN во время обучения, что заставляет многие другие или все другие числа в вашей модели в конечном итоге стать NAN.

Нэн - это аббревиатура для n n n number .

обработка естественного языка

#язык
Область обучения компьютеров для обработки того, что сказал пользователь или напечатал, используя лингвистические правила. Почти вся современная обработка естественного языка зависит от машинного обучения.

Понимание естественного языка

#язык

Подмножество обработки естественного языка , которая определяет намерения чего -то сказанного или напечатанного. Понимание естественного языка может выходить за рамки обработки естественного языка, чтобы рассмотреть сложные аспекты языка, такие как контекст, сарказм и настроения.

отрицательный класс

#основы

В бинарной классификации один класс называется положительным , а другой — отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:

  • Отрицательный класс медицинского теста может быть «не опухоль».
  • Отрицательный класс в классификаторе электронной почты может быть «не спам».

Контраст с позитивным классом .

отрицательный отбор

Синоним отбора проб кандидата .

Поиск нейронной архитектуры (NAS)

Техника для автоматического проектирования архитектуры нейронной сети . Алгоритмы NAS могут сократить количество времени и ресурсов, необходимых для обучения нейронной сети.

NAS обычно использует:

  • Пространство поиска, которое представляет собой набор возможных архитектур.
  • Функция фитнеса, которая является мерой того, насколько хорошо конкретная архитектура выполняется по данной задаче.

Алгоритмы NAS часто начинаются с небольшого набора возможных архитектур и постепенно расширяют пространство поиска, поскольку алгоритм узнает больше о том, какие архитектуры эффективны. Функция фитнеса, как правило, основана на производительности архитектуры на учебном наборе, а алгоритм обычно обучается с использованием техники подкрепления .

Алгоритмы NAS оказались эффективными в поиске высокопроизводительных архитектур для различных задач, включая классификацию изображений, классификацию текста и машинный перевод .

нейронная сеть

#основы

Модель, содержащая хотя бы один скрытый слой . Глубокая нейронная сеть — это тип нейронной сети, содержащей более одного скрытого слоя. Например, на следующей диаграмме показана глубокая нейронная сеть, содержащая два скрытых слоя.

Нейронная сеть с входным слоем, двумя скрытыми слоями и           выходной слой.

Каждый нейрон нейронной сети соединяется со всеми узлами следующего слоя. Например, на предыдущей диаграмме обратите внимание, что каждый из трех нейронов первого скрытого слоя отдельно соединяется с обоими двумя нейронами второго скрытого слоя.

Нейронные сети, реализованные на компьютерах, иногда называют искусственными нейронными сетями , чтобы отличить их от нейронных сетей, обнаруженных в мозге и других нервных системах.

Некоторые нейронные сети могут имитировать чрезвычайно сложные нелинейные отношения между различными функциями и меткой.

См. также сверточную нейронную сеть и рекуррентную нейронную сеть .

нейрон

#основы

В машинном обучении — отдельный модуль внутри скрытого слоя нейронной сети . Каждый нейрон выполняет следующее двухэтапное действие:

  1. Вычисляет взвешенную сумму входных значений, умноженную на соответствующие им веса.
  2. Передает взвешенную сумму в качестве входных данных функции активации .

Нейрон в первом скрытом слое принимает входные данные от значений признаков во входном слое . Нейрон в любом скрытом слое после первого принимает входные данные от нейронов предыдущего скрытого слоя. Например, нейрон второго скрытого слоя принимает входные данные от нейронов первого скрытого слоя.

На следующей иллюстрации показаны два нейрона и их входы.

Нейронная сеть с входным слоем, двумя скрытыми слоями и           выходной слой. Выделены два нейрона: один в первом           скрытом слое и один во втором скрытом слое. Выделенный           нейрон в первом скрытом слое получает входные данные от обоих объектов           во входном слое. Выделенный нейрон во втором скрытом слое           получает входные данные от каждого из трех нейронов первого скрытого           слой.

Нейрон в нейронной сети имитирует поведение нейронов мозга и других частей нервной системы.

N-грамм

#seq
#язык

Упорядоченная последовательность n слов. Например, по-настоящему безумно 2 грамм. Поскольку порядок актуально, безумно отличается от 2 грамма, чем по-настоящему безумно .

Н Имя (ы) для такого рода n-грамма Примеры
2 Биграм или 2 грамм пойти, ходить, пообедать, поужинать
3 Триграмма или 3 грамма ел слишком много, трех слепых мышей, звонок
4 4-грамм Прогулка в парке, пыль на ветру, мальчик съел чечевицу

Многие модели понимания естественного языка полагаются на n-граммы, чтобы предсказать следующее слово, которое пользователь напечатает или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, вероятно, предскажет, что пользователь будет следующим типом мышей .

Контрастные n-граммы с пакетом слов , которые являются неупорядоченными наборами слов.

НЛП

#язык

Аббревиатура для обработки естественного языка .

НЛУ

#язык

Сокращение для понимания естественного языка .

Узел (Дерево решений)

#df

В дереве решений , любое условие или лист .

Дерево решений с двумя условиями и тремя листьями.

узел (нейронная сеть)

#основы

Нейрон в скрытом слое .

Узел (график TensorFlow)

#TensorFlow

Операция на графике тензора.

шум

Вообще говоря, все, что скрывает сигнал в наборе данных. Шум может быть введен в данные различными способами. Например:

  • Человеческие оценщики делают ошибки в маркировке.
  • Люди и инструменты неправильно записывают или пропускают значения функций.

невоичное состояние

#df

Условие, содержащее более двух возможных результатов. Например, следующее невоичное условие содержит три возможных результата:

Условие (number_of_legs =?), Которое приводит к трем возможным           результаты. Один результат (number_of_legs = 8) приводит к листу           названный паук. Второй результат (number_of_legs = 4) приводит к           Лист по имени собака. Третий результат (number_of_legs = 2) приводит к           Лист по имени Пингвин.

нелинейный

#основы

Связь между двумя или более переменными, которую невозможно представить только с помощью сложения и умножения. Линейную связь можно представить в виде линии; нелинейная связь не может быть представлена ​​в виде линии. Например, рассмотрим две модели, каждая из которых связывает один объект с одной меткой. Модель слева линейная, а модель справа нелинейная:

Два сюжета. Один график представляет собой линию, поэтому это линейная зависимость.           Другой график представляет собой кривую, поэтому это нелинейная зависимость.

предвзятость в связи с отсутствием ответов

#справедливость

См. смещение выбора .

нестационарность

#fundamentals

Объект, значения которого изменяются в одном или нескольких измерениях, обычно во времени. Например, рассмотрим следующие примеры нестационарности:

  • Количество купальников, продаваемых в том или ином магазине, меняется в зависимости от сезона.
  • Количество конкретных фруктов, собираемых в определенном регионе, равно нулю в течение большей части года, но велико в течение короткого периода времени.
  • Из-за изменения климата среднегодовые температуры меняются.

Сравните со стационарностью .

никто не правильный ответ (Нора)

#язык
#генеративныйИИ

Подсказка имеет несколько подходящих ответов. Например, в следующей подсказке нет единого правильного ответа:

Расскажи мне шутку о слонах.

Оценка подсказок с одним правом ответом может быть сложной задачей.

НОРА

#язык
#генеративныйИИ

Аббревиатура ни за один правильный ответ .

нормализация

#основы

В широком смысле, это процесс преобразования фактического диапазона значений переменной в стандартный диапазон значений, например:

  • от -1 до +1
  • от 0 до 1
  • Z-показатели (примерно от -3 до +3)

Например, предположим, что фактический диапазон значений определенного признака составляет от 800 до 2400. В рамках разработки функций вы можете нормализовать фактические значения до стандартного диапазона, например от -1 до +1.

Нормализация — обычная задача в разработке функций . Модели обычно обучаются быстрее (и дают более точные прогнозы), когда каждый числовой признак в векторе признаков имеет примерно одинаковый диапазон.

См. Работа с численным модулем данных о сбою машинного обучения для более подробной информации. Также см. Нормализацию Z-показателя .

Обнаружение новизны

Процесс определения того, исходит ли новый (новый) пример из того же распределения, что и учебный набор . Другими словами, после обучения обучающему набору обнаружение новизны определяет, является ли новый пример (во время вывода или во время дополнительного обучения) выбросом .

Сравните с обнаружением выбросов .

числовые данные

#fundamentals

Характеристики, представленные в виде целых или вещественных чисел. Например, модель оценки дома, вероятно, будет представлять размер дома (в квадратных футах или квадратных метрах) в виде числовых данных. Представление объекта в виде числовых данных указывает на то, что значения объекта имеют математическую связь с меткой. То есть количество квадратных метров в доме, вероятно, имеет некоторую математическую связь со стоимостью дома.

Не все целочисленные данные должны быть представлены в виде числовых данных. Например, почтовые индексы в некоторых частях мира являются целыми числами; однако целочисленные почтовые индексы не следует представлять в моделях в виде числовых данных. Это связано с тем, что почтовый индекс 20000 не в два (или половину) более эффективен, чем почтовый индекс 10000. Более того, хотя разные почтовые индексы действительно коррелируют с разной стоимостью недвижимости, мы не можем предполагать, что стоимость недвижимости с почтовым индексом 20000 в два раза дороже, чем стоимость недвижимости с почтовым индексом 10000. Вместо этого почтовые индексы должны быть представлены как категориальные данные .

Числовые функции иногда называют непрерывными функциями .

Numpy

Математическая библиотека с открытым исходным кодом , которая обеспечивает эффективные операции массива в Python. Панды построены на Numpy.

О

цель

Метрика, которую ваш алгоритм пытается оптимизировать.

объективная функция

Математическая формула или метрика , которую модель стремится оптимизировать. Например, целевой функцией для линейной регрессии обычно является средняя потери в квадрате . Следовательно, при обучении модели линейной регрессии, обучение направлено на минимизацию средней потери в квадрате.

В некоторых случаях цель состоит в том, чтобы максимизировать целевую функцию. Например, если целевой функцией является точность, цель состоит в том, чтобы максимизировать точность.

Смотрите также потерю .

косое состояние

#df

В дереве решений условие , которое включает в себя более чем одну функцию . Например, если высота и ширина являются функциями, то следующее - наклонное условие:

  height > width

Контраст с выравниваемым осью состоянием .

офлайн

#fundamentals

Синоним статического .

автономный вывод

#fundamentals

Процесс, в котором модель генерирует пакет прогнозов и затем кэширует (сохраняет) эти прогнозы. Затем приложения смогут получить доступ к полученному прогнозу из кеша, а не перезапускать модель.

Например, рассмотрим модель, которая генерирует локальные прогнозы погоды (предсказания) раз в четыре часа. После каждого запуска модели система кэширует все местные прогнозы погоды. Погодные приложения извлекают прогнозы из кеша.

Автономный вывод также называется статическим выводом .

Контрастировать с онлайн -выводом .

горячее кодирование

#fundamentals

Представление категориальных данных в виде вектора, в котором:

  • Один элемент имеет значение 1.
  • Все остальные элементы установлены в 0.

Горячее кодирование обычно используется для представления строк или идентификаторов, имеющих конечный набор возможных значений. Например, предположим, что некий категориальный признак под названием Scandinavia имеет пять возможных значений:

  • "Дания"
  • "Швеция"
  • "Норвегия"
  • "Финляндия"
  • "Исландия"

Горячее кодирование может представлять каждое из пяти значений следующим образом:

страна Вектор
"Дания" 1 0 0 0 0
"Швеция" 0 1 0 0 0
"Норвегия" 0 0 1 0 0
"Финляндия" 0 0 0 1 0
"Исландия" 0 0 0 0 1

Благодаря горячему кодированию модель может изучать разные связи в зависимости от каждой из пяти стран.

Представление объекта в виде числовых данных является альтернативой горячему кодированию. К сожалению, представлять скандинавские страны численно – не лучший выбор. Например, рассмотрим следующее числовое представление:

  • «Дания» — 0
  • «Швеция» — 1
  • «Норвегия» — 2
  • «Финляндия» — 3
  • «Исландия» — 4

При числовом кодировании модель будет математически интерпретировать необработанные числа и пытаться обучаться на этих числах. Однако в Исландии на самом деле не в два раза больше (или вполовину) чего-то, чем в Норвегии, поэтому модель пришла к некоторым странным выводам.

Одно выстрел

Подход машинного обучения, часто используемый для классификации объектов, предназначенный для изучения эффективных классификаторов из одного примера обучения.

См. Также несколько выстрелов и обучение с нулевым выстрелом .

Один выстрел побуждение

#язык
#генеративныйИИ

Подсказка , которая содержит один пример, демонстрирующий, как должна отвечать большая языковая модель . Например, следующая подсказка содержит один пример, показывающий большую языковую модель, как она должна ответить на запрос.

Части одного подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Франция: евро Один пример.
Индия: Фактический запрос.

Сравните и сопоставьте один выстрел с следующими терминами:

один против всех

#fundamentals

Учитывая задачу классификации с N классами, решение состоит из N отдельных бинарных классификаторов — по одному двоичному классификатору для каждого возможного результата. Например, для модели, которая классифицирует примеры как животные, овощи или минералы, решение «один против всех» предоставит следующие три отдельных бинарных классификатора:

  • животное против не животного
  • овощ или не овощ
  • минеральное или не минеральное

онлайн

#fundamentals

Синоним динамического .

онлайн-вывод

#основы

Генерация прогнозов по запросу. Например, предположим, что приложение передает входные данные модели и выдает запрос на прогноз. Система, использующая онлайн-вывод, отвечает на запрос, запуская модель (и возвращая прогноз в приложение).

Сравните с офлайн-выводом .

Операция (OP)

#TensorFlow

В TensorFlow любая процедура, которая создает, манипулирует или разрушает тензор . Например, матрица умножается - это операция, которая принимает два тензора в качестве входного и генерирует один тензор в качестве выходного сигнала.

Оптекс

Библиотека обработки и оптимизации градиента для JAX . Optax облегчает исследование, предоставляя строительные блоки, которые могут быть перечислены в пользовательских способах оптимизации параметрических моделей, таких как глубокие нейронные сети. Другие цели включают:

  • Предоставление читаемой, хорошо проверенной, эффективной реализации основных компонентов.
  • Повышение производительности, позволяя комбинировать низкоуровневые ингредиенты в пользовательские оптимизаторы (или другие компоненты обработки градиентов).
  • Ускорение внедрения новых идей, позволяя кому -либо внести свой вклад.

оптимизатор

Конкретная реализация алгоритма градиентного происхождения . Популярные оптимизаторы включают:

  • Адаград , который означает адаптивный градиентный спуск.
  • Адам, который означает адаптивную с импульсом.

предвзятость в отношении однородности чужой группы

#справедливость

Тенденция рассматривать членов чужой группы более похожими, чем членов своей группы, при сравнении взглядов, ценностей, личностных качеств и других характеристик. Под группой подразумеваются люди, с которыми вы регулярно общаетесь; К аут-группе относятся люди, с которыми вы не общаетесь регулярно. Если вы создаете набор данных, попросив людей предоставить атрибуты чужих групп, эти атрибуты могут быть менее детальными и более стереотипными, чем атрибуты, которые участники перечисляют для людей из своей группы.

Например, лилипуты могут очень подробно описывать дома других лилипутов, ссылаясь на небольшие различия в архитектурных стилях, окнах, дверях и размерах. Однако те же лилипуты могли бы просто заявить, что все бробдингнегцы живут в одинаковых домах.

Предвзятость однородности аутгруппы — это форма предвзятости групповой атрибуции .

См. также внутригрупповую предвзятость .

обнаружение выбросов

Процесс выявления выбросов в учебном наборе .

Контраст с обнаружением новизны .

выбросы

Значения отдаленные от большинства других значений. В машинном обучении любое из следующих выбросов:

  • Входные данные, значения которых более чем примерно 3 стандартных отклонений от среднего.
  • Веса с высокими абсолютными значениями.
  • Прогнозируемые значения относительно далеко от фактических значений.

Например, предположим, что widget-price является особенностью определенной модели. Предположим, что средняя widget-price составляет 7 евро со стандартным отклонением 1 евро. Таким образом, примеры, содержащие widget-price 12 евро или 2 евро, будут рассматриваться для выбросов, поскольку каждая из этих цен является пятью стандартными отклонением от среднего значения.

Выбросы часто вызваны опечатками или другими входными ошибками. В других случаях выбросы не ошибки; В конце концов, значения пять стандартных отклонений от среднего значения редки, но едва ли невозможно.

Выбросы часто вызывают проблемы в модельном обучении. Обрезка - это один из способов управления выбросами.

Оценка вне мега (оценка OOB)

#df

Механизм оценки качества решения решения путем проверки каждого дерева решений на примеры, не используемые во время обучения этого дерева решений. Например, на следующей диаграмме обратите внимание, что система обучает каждое дерево решений примерно на две трети примеров, а затем оценивает оставшуюся треть примеров.

Решение Лес, состоящее из трех деревьев решений.           Одно дерево решений тренируется на две трети примеров           а затем использует оставшуюся треть для оценки OOB.           Второе дерево решений тренируется на разные две трети           примеров, чем предыдущее дерево решений, а затем           использует другую треть для оценки OOB, чем           Предыдущее дерево решений.

Оценка вне мега является вычислительно эффективным и консервативным приближением механизма перекрестной проверки . При перекрестной проверке одна модель обучается для каждого раунда перекрестной проверки (например, 10 моделей обучаются в 10-кратной перекрестной проверке). При оценке OOB обучается одна модель. Поскольку пакетный мешок удерживает некоторые данные с каждого дерева во время обучения, оценка OOB может использовать эти данные для приблизительного перекрестного проверки.

выходной слой

#fundamentals

«Последний» слой нейронной сети. Выходной слой содержит прогноз.

На следующем рисунке показана небольшая глубокая нейронная сеть с входным слоем, двумя скрытыми слоями и выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           Скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

переоснащение

#fundamentals

Создание модели , которая настолько точно соответствует обучающим данным , что модель не может делать правильные прогнозы на новых данных.

Регуляризация может уменьшить переобучение. Обучение на большом и разнообразном тренировочном наборе также может уменьшить переобучение.

перегрев

Повторное использование примеров класса меньшинства в классе-имбалансированном наборе данных , чтобы создать более сбалансированный обучающий набор .

Например, рассмотрим проблему бинарной классификации , в которой отношение класса большинства к классу меньшинства составляет 5000: 1. Если набор данных содержит миллион примеров, то набор данных содержит только около 200 примеров класса меньшинства, что может быть слишком мало примеров для эффективного обучения. Чтобы преодолеть этот недостаток, вы можете переоборудовать (повторно использовать) эти 200 примеров несколько раз, возможно, давая достаточные примеры для полезного обучения.

Вы должны быть осторожны с переосмыслением при перевозке.

Контраст с недостаточной дискретией .

П

упакованные данные

Подход к более эффективному хранению данных.

Упакованные данные хранят данные либо с помощью сжатого формата, либо другим способом, который позволяет к ним более эффективно доступно. Упакованные данные сводят к минимуму объем памяти и вычислений, необходимых для доступа к ней, что приводит к более быстрому обучению и более эффективному выводу модели.

Упакованные данные часто используются с другими методами, такими как увеличение данных и регуляризация , что еще больше улучшает производительность моделей .

панды

#fundamentals

API анализа данных, ориентированный на столбцы, построенный на основе numpy . Многие платформы машинного обучения, включая TensorFlow, поддерживают структуры данных pandas в качестве входных данных. Подробности смотрите в документации pandas .

параметр

#fundamentals

Веса и отклонения , которые модель изучает во время обучения . Например, в модели линейной регрессии параметры состоят из смещения ( b ) и всех весов ( w 1 , w 2 и т. д.) в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Напротив, гиперпараметры — это значения, которые вы (или служба настройки гиперпараметров) предоставляете модели. Например, скорость обучения является гиперпараметром.

Параметр-эффективная настройка

#язык
#генеративныйИИ

Набор методов для тонкой настройки большой предварительно обученной языковой модели (PLM) более эффективно, чем полная тонкая настройка . Параметр-эффективная настройка обычно тонко настратывает гораздо меньше параметров , чем полная точная настройка, но обычно производит большую языковую модель , которая также работает (или почти также) как большая языковая модель, построенная из полной точной настройки.

Сравните и сопоставьте настройку параметров с:

Параметр-эффективная настройка также известна как эффективная настройка параметров .

Сервер параметров (PS)

#TensorFlow

Работа, которая отслеживает параметры модели в распределенной настройке.

Обновление параметров

Работа регулировки параметров модели во время обучения, как правило, в пределах одной итерации градиентного спуска .

частичная производная

Производное, в котором все, кроме одной из переменных, считается постоянной. Например, частичная производная F (x, y) по отношению к x является производной F, рассматриваемой как функция только x (то есть сохраняя y постоянную). Частичная производная F в отношении X фокусируется только на том, как X меняется и игнорирует все другие переменные в уравнении.

предвзятость участия

#справедливость

Синоним систематической ошибки в связи с отсутствием ответов. См. смещение выбора .

Стратегия разделения

Алгоритм, с помощью которого переменные делятся на серверы параметров .

пройти через k (pass@k)

Метрика для определения качества кода (например, Python), который генерирует большая языковая модель . В частности, Pass at K сообщает вам о вероятности, что по крайней мере один сгенерированный блок кода из K, сгенерированных блоков кода, пройдет все его модульные тесты.

Большие языковые модели часто изо всех сил пытаются создать хороший код для сложных задач программирования. Инженеры -программисты адаптируются к этой проблеме, побуждая большую языковую модель для создания нескольких ( k ) решений для одной и той же проблемы. Затем инженеры -программисты проверяют каждое из решений против модульных тестов. Расчет прохода в K зависит от результата модульных тестов:

  • Если одно или несколько из этих решений проходят модульный тест, то LLM выполняет эту задачу генерации кода.
  • Если ни одно из решений проходит модульный тест, то LLM не выполняет эту задачу генерации кода.

Формула для прохода в K заключается в следующем:

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

В целом, более высокие значения k производят более высокий проход при оценках K; Тем не менее, более высокие значения K требуют более крупной языковой модели и ресурсов модульного тестирования.

Пакс

Структура программирования, предназначенная для обучения крупномасштабных моделей нейронной сети, настолько больших, что они охватывают несколько ломтиков чипов или стручков с акселератором TPU .

Pax построен на льна , который построен на JAX .

Диаграмма, указывающая позицию Пакса в программном стеке.           PAX построен на вершине JAX. Сам Пакс состоит из трех           слои. Нижний слой содержит тензорстор и лен.           Средний слой содержит Optax и FlaxFormer. Вершина           слой содержит библиотеку моделирования Praxis. Скрипкая построена           На вершине Пакса.

PERCEPTRON

Система (либо аппаратное или программное обеспечение), которая принимает одно или несколько входных значений, выполняет функцию на взвешенную сумму входов и вычисляет одно выходное значение. В машинном обучении функция обычно нелинейная, такая как Relu , Sigmoid или Tanh . Например, следующий персептрон полагается на сигмоидную функцию для обработки трех входных значений:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

На следующем иллюстрации, Perceptron берет три входа, каждый из которых сам модифицируется весом перед входом в Perceptron:

Персептрон, который принимает 3 входа, каждый из которых умножен на отдельные           вес. Perceptron выводит одно значение.

Perceptrons являются нейронами в нейронных сетях .

производительность

Перегруженный термин со следующими значениями:

  • Стандартное значение в разработке программного обеспечения. А именно: как быстро (или эффективно) работает эта часть программного обеспечения?
  • Значение в машинном обучении. Здесь производительность отвечает на следующий вопрос: насколько правильно эта модель ? То есть, насколько хороши прогнозы модели?

Переменные импорты переменной

#df

Тип важности переменной , который оценивает увеличение ошибки прогнозирования модели после пересечения значений функции. Важность переменной перестановки-это независимая модель метрика.

недоумение

Одна мера того, насколько хорошо модель выполняет свою задачу. Например, предположим, что ваша задача состоит в том, чтобы прочитать первые несколько букв слова, которые пользователь печатает на телефонной клавиатуре, и предложить список возможных слов завершения. Смущение, P, для этой задачи примерно количество предположений, которые вы должны предложить, чтобы ваш список содержал фактическое слово, которое пользователь пытается напечатать.

Недоумение связано с перекрестной энтропией следующим образом:

$$P= 2^{-\text{cross entropy}}$$

трубопровод

Инфраструктура, окружающая алгоритм машинного обучения. Трубопровод включает в себя сбор данных, размещение данных в обучающие файлы данных, обучение одной или нескольких моделей и экспорт моделей в производство.

трубопровод

#язык

Форма параллелизма модели , в которой обработка модели разделена на последовательные этапы, и каждый этап выполняется на другом устройстве. В то время как этап обрабатывает одну партию, предыдущая стадия может работать на следующей партии.

Смотрите также поэтапное обучение .

PJIT

Функция JAX , которая расщепляет код для выполнения нескольких чипов акселератора . Пользователь передает функцию PJIT, которая возвращает функцию, которая имеет эквивалентную семантику, но составлена ​​в вычисление XLA , которое работает на нескольких устройствах (таких как графические процессоры или ядра TPU ).

PJIT позволяет пользователям разыгрывать вычисления, не переписывая их, используя серию SPMD .

По состоянию на март 2023 года pjit был объединен с jit . См . Распределенные массивы и автоматическую параллелизацию для более подробной информации.

ПЛМ

#язык
#генеративныйИИ

Аббревиатура для предварительно обученной языковой модели .

ПМАП

Функция JAX , которая выполняет копии входной функции на нескольких базовых аппаратных устройствах (процессоров, графических процессоров или TPU ), с различными входными значениями. PMAP полагается на SPMD .

политика

#рл

В обучении подкрепления вероятностное отображение агента из состояний на действия .

объединение

#изображение

Снижение матрицы (или матрицы), созданной более ранним сверточным слоем, до меньшей матрицы. Объединение обычно включает в себя либо максимальное, либо среднее значение по всей объединенной зоне. Например, предположим, что у нас есть следующая матрица 3x3:

Матрица 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Операция объединения, как и сверточная операция, делит эту матрицу на ломтики, а затем выдвигает эту сверточную операцию на шаги . Например, предположим, что операция объединения делит сверточную матрицу на срезы 2x2 с шагом 1x1. Как показывает следующая диаграмма, проходят четыре операции по объединению. Представьте, что каждая операция объединения выбирает максимальное значение четырех в этом среза:

Входная матрица составляет 3x3 со значениями: [[5,3,1], [8,2,5], [9,4,3]].           Подмазка в верхней левой 2X2 входной матрицы составляет [[5,3], [8,2]], поэтому           Верхняя левая операция объединения дает значение 8 (которое           максимум 5, 3, 8 и 2). Верхняя правая подставка 2x2 ввода           Матрица равен [[3,1], [2,5]], поэтому в высшей степени           Значение 5. Подмазка нижнего левого 2x2 входной матрицы           [[8,2], [9,4]], поэтому операция по левому левому пулу дает значение           9. Подводка в правом нижнем 2x2 входной матрицы           [[2,5], [4,3]], так что операция по праву правой в правом праве дает значение           5. В итоге операция объединения дает матрицу 2x2           [[8,5], [9,5]].

Объединение помогает обеспечить трансляционную инвариантность в входной матрице.

Объединение для применений зрения известно более формально как пространственное объединение . Приложения временных рядов обычно называют объединение как временное объединение . Менее формально, объединение часто называют подчинкой или снижением .

позиционное кодирование

#язык

Метод добавления информации о положении токена в последовательности в встраивание токена. Модели трансформаторов используют позиционное кодирование, чтобы лучше понять взаимосвязь между различными частями последовательности.

В общей реализации позиционного кодирования используется синусоидальная функция. (В частности, частота и амплитуда синусоидальной функции определяются положением токена в последовательности.) Этот метод позволяет модели трансформатора научиться заниматься различными частями последовательности на основе их позиции.

позитивный класс

#fundamentals

Класс, для которого вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Положительным классом в классификаторе электронной почты может быть «спам».

Сравните с отрицательным классом .

пост-обработка

#справедливость
#fundamentals

Корректировка вывода модели после ее запуска. Постобработка может использоваться для обеспечения соблюдения ограничений справедливости без изменения самих моделей.

Например, можно применить постобработку к двоичному классификатору, установив порог классификации таким образом, чтобы для некоторого атрибута сохранялось равенство возможностей , проверяя, что истинный положительный уровень одинаков для всех значений этого атрибута.

Пост обученная модель

#язык
#изображение
#генеративныйИИ

Свободно определенный термин, который обычно относится к предварительно обученной модели , которая прошла через некоторую постобработку, такую ​​как одно или несколько из следующих:

PR AUC (область под кривой PR)

Площадь под интерполированной кривой точно-рецизионной , полученной путем построения (отзыв, точность) точки для различных значений порога классификации .

Практика

Ядро, высокопроизводительная библиотека ML Pax . Praxis часто называют «библиотекой слоев».

Praxis содержит не только определения для класса слоя, но и большинство его вспомогательных компонентов, включая:

Praxis предоставляет определения для класса модели.

точность

Метрика для классификационных моделей , которая отвечает на следующий вопрос:

Когда модель предсказывала положительный класс , какой процент прогнозов был правильным?

Вот формула:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

  • Истинный положительный означает, что модель правильно предсказала положительный класс.
  • Неверно положительный означает, что модель ошибочно предсказала положительный класс.

Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных прогнозов:

  • 150 были настоящими положительными.
  • 50 были ложными положительными.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Сравните с точностью и отзывом .

См. Классификацию: Точность, отзыв, точность и связанные с ними метрики для получения дополнительной информации.

точность при k (precision@k)

#язык

Метрика для оценки рангового (упорядоченного) списка элементов. Точность в K идентифицирует долю первых k элементов в этом списке, которые являются «актуальными». То есть:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью расчета.

Актуальность часто субъективна; Даже опытные оценщики человека часто не согласны с тем, какие предметы актуальны.

Сравните с:

Кривая точности

Кривая точности в зависимости от воспоминания на разных порогах классификации .

прогноз

#fundamentals

Выход модели. Например:

  • Прогноз модели бинарной классификации — это либо положительный класс, либо отрицательный класс.
  • Прогноз модели многоклассовой классификации представляет собой один класс.
  • Прогноз модели линейной регрессии — это число.

предвзятость прогнозирования

Значение, указывающее, насколько далеко друг от друга среднее показатели , от среднего значения метки в наборе данных.

Не путать с термином смещения в моделях машинного обучения или с предвзятостью в этике и справедливости .

прогнозирующий Ml

Любая стандартная ("классическая") система машинного обучения .

Термин «прогнозирующий ML не имеет формального определения». Скорее, термин отличает категорию систем ML, не основанные на генеративном ИИ .

прогнозируемая четность

#справедливость

Метрика справедливости , которая проверяет, эквивалентны ли для данного классификатора показатели точности для рассматриваемых подгрупп.

Например, модель, предсказывающая поступление в колледж, будет удовлетворять прогнозному паритету национальности, если ее уровень точности одинаков для лилипутов и бробдингнегов.

Прогнозируемый паритет иногда также называют прогнозирующим паритетом ставок .

См. «Объяснение определений справедливости» (раздел 3.2.1) для более подробного обсуждения прогнозируемой четности.

прогнозируемый паритет ставок

#справедливость

Другое название прогнозирующей четности .

предварительная обработка

#справедливость
Обработка данных перед их использованием для обучения модели. Предварительная обработка может быть такой же простой, как удаление слов из корпуса английского текста, которых нет в английском словаре, или может быть такой же сложной, как повторное выражение точек данных таким образом, чтобы исключить как можно больше атрибутов, которые коррелируют с конфиденциальными атрибутами. . Предварительная обработка может помочь удовлетворить ограничения справедливости .

Предварительно обученная модель

#язык
#изображение
#генеративныйИИ

Как правило, модель, которая уже была обучена . Этот термин также может означать ранее обученный вектор встраивания .

Термин предварительно обученный языковой модель обычно относится к уже обученной большой языковой модели .

предварительное обучение

#язык
#изображение
#генеративныйИИ

Первоначальная подготовка модели на большом наборе данных. Некоторые предварительно обученные модели являются неуклюжими гигантами и обычно должны быть уточнены посредством дополнительного обучения. Например, эксперты ML могут предварительно обучить большую языковую модель в обширном текстовом наборе данных, например, все английские страницы в Википедии. После предварительного обучения полученная модель может быть дополнительно уточнена с помощью любого из следующих методов:

предварительное убеждение

Что вы верите в данные, прежде чем начать обучение по ним. Например, регуляризация L 2 зависит от предварительного убеждения, что веса должны быть небольшими и обычно распределенными около нуля.

модель вероятностной регрессии

Регрессионная модель , которая использует не только веса для каждой функции , но и неопределенность этих весов. Вероятностная регрессионная модель генерирует прогноз и неопределенность этого прогноза. Например, модель вероятностной регрессии может дать прогноз 325 со стандартным отклонением 12. Для получения дополнительной информации о моделях вероятностной регрессии см. В этом Colab на tensorflow.org .

Функция плотности вероятности

Функция, которая идентифицирует частоту образцов данных, имеющих именно определенное значение. Когда значения набора данных являются непрерывными числами с плавающей точкой, точные совпадения редко встречаются. Однако интеграция функции плотности вероятности от значения x до значения y дает ожидаемую частоту образцов данных между x и y .

Например, рассмотрим нормальное распределение, составляющее среднее значение 200 и стандартное отклонение 30. Чтобы определить ожидаемую частоту образцов данных, падающих в диапазоне 211,4 до 218,7, вы можете интегрировать функцию плотности вероятности для нормального распределения от 211,4 до 218,7 .

быстрый

#язык
#генеративныйИИ

Любой текст, введенный в качестве ввода в большую языковую модель, чтобы поддерживать модель, чтобы вести себя определенным образом. Подсказки могут быть такими же короткими, как фраза или произвольно длинные (например, весь текст романа). Подсказки делятся на несколько категорий, в том числе показанные в следующей таблице:

Быстрое категория Пример Примечания
Вопрос Как быстро может летать голубь?
Инструкция Напишите забавное стихотворение об арбитраже. Подсказка, которая просит большую языковую модель что -то сделать .
Пример Перевести код разметки в HTML. Например:
Markdown: * Список элемента
Html: <ul> <li> Список элемента </li> </ul>
Первым предложением в этом примере подсказка является инструкция. Остальная часть подсказки является примером.
Роль Объясните, почему градиент спуск используется в обучении машинного обучения для доктора философии. Первая часть предложения - это инструкция; Фраза «до доктора философии» - это роль.
Частичный вход для модели для завершения Премьер -министр Соединенного Королевства живет в Частичная подсказка ввода может либо резко заканчиваться (как это делает этот пример), либо заканчиваться подчеркиванием.

Генеративная модель искусственного интеллекта может ответить на подсказку с текстом, кодом, изображениями, встраиванием , видео ... почти чем угодно.

быстрое обучение

#язык
#генеративныйИИ

Возможность определенных моделей , которые позволяют им адаптировать свое поведение в ответ на произвольный ввод текста ( подсказка ). В типичной парадигме обучения на основе быстрого обучения крупная языковая модель реагирует на подсказку, генерируя текст. Например, предположим, что пользователь входит в следующую подсказку:

Суммируйте третий закон Ньютона.

A model capable of prompt-based learning isn't specifically trained to answer the previous prompt. Rather, the model "knows" a lot of facts about physics, a lot about general language rules, and a lot about what constitutes generally useful answers. That knowledge is sufficient to provide a (hopefully) useful answer. Additional human feedback ("That answer was too complicated." or "What's a reaction?") enables some prompt-based learning systems to gradually improve the usefulness of their answers.

prompt design

#язык
#генеративныйИИ

Synonym for prompt engineering .

оперативное проектирование

#язык
#генеративныйИИ

The art of creating prompts that elicit the desired responses from a large language model . Humans perform prompt engineering. Writing well-structured prompts is an essential part of ensuring useful responses from a large language model. Prompt engineering depends on many factors, including:

  • The dataset used to pre-train and possibly fine-tune the large language model.
  • The temperature and other decoding parameters that the model uses to generate responses.

See Introduction to prompt design for more details on writing helpful prompts.

Prompt design is a synonym for prompt engineering.

быстрое настройка

#язык
#генеративныйИИ

A parameter efficient tuning mechanism that learns a "prefix" that the system prepends to the actual prompt .

One variation of prompt tuning—sometimes called prefix tuning —is to prepend the prefix at every layer . In contrast, most prompt tuning only adds a prefix to the input layer .

прокси (чувствительные атрибуты)

#справедливость
Атрибут, используемый в качестве замены конфиденциального атрибута . For example, an individual's postal code might be used as a proxy for their income, race, or ethnicity.

прокси-метки

#fundamentals

Данные, используемые для аппроксимации меток, не доступны напрямую в наборе данных.

Например, предположим, что вам необходимо обучить модель прогнозированию уровня стресса сотрудников. Ваш набор данных содержит множество прогнозных функций, но не содержит метки с названием «уровень стресса». Не испугавшись, вы выбираете «несчастные случаи на рабочем месте» в качестве индикатора уровня стресса. Ведь сотрудники, находящиеся в состоянии сильного стресса, попадают в больше несчастных случаев, чем спокойные сотрудники. Or do they? Возможно, количество несчастных случаев на производстве на самом деле растет и уменьшается по нескольким причинам.

В качестве второго примера предположим, что вы хотите , идет ли дождь? быть логической меткой для вашего набора данных, но ваш набор данных не содержит данных о дожде. Если имеются фотографии, вы можете использовать изображения людей с зонтиками в качестве косвенного индикатора того, идет ли дождь? Это хороший прокси-лейбл? Возможно, но люди в некоторых культурах с большей вероятностью будут носить с собой зонтики для защиты от солнца, чем от дождя.

Прокси-метки часто несовершенны. По возможности выбирайте настоящие метки, а не прокси-метки. Тем не менее, когда фактическая метка отсутствует, выбирайте прокси-метку очень осторожно, выбирая наименее ужасного кандидата на прокси-метку.

чистая функция

A function whose outputs are based only on its inputs, and that has no side effects. Specifically, a pure function doesn't use or change any global state, such as the contents of a file or the value of a variable outside the function.

Pure functions can be used to create thread-safe code, which is beneficial when sharding model code across multiple accelerator chips .

JAX's function transformation methods require that the input functions are pure functions.

вопрос

Q-function

#рл

In reinforcement learning , the function that predicts the expected return from taking an action in a state and then following a given policy .

Q-function is also known as state-action value function .

Q-обучение

#рл

In reinforcement learning , an algorithm that allows an agent to learn the optimal Q-function of a Markov decision process by applying the Bellman equation . The Markov decision process models an environment .

quantile

Each bucket in quantile bucketing .

quantile bucketing

Distributing a feature's values into buckets so that each bucket contains the same (or almost the same) number of examples. For example, the following figure divides 44 points into 4 buckets, each of which contains 11 points. In order for each bucket in the figure to contain the same number of points, some buckets span a different width of x-values.

44 data points divided into 4 buckets of 11 points each.
          Although each bucket contains the same number of data points,
          some buckets contain a wider range of feature values than other
          buckets.

quantization

Overloaded term that could be used in any of the following ways:

  • Implementing quantile bucketing on a particular feature .
  • Transforming data into zeroes and ones for quicker storing, training, and inferring. As Boolean data is more robust to noise and errors than other formats, quantization can improve model correctness. Quantization techniques include rounding, truncating, and binning .
  • Reducing the number of bits used to store a model's parameters . For example, suppose a model's parameters are stored as 32-bit floating-point numbers. Quantization converts those parameters from 32 bits down to 4, 8, or 16 bits. Quantization reduces the following:

    • Compute, memory, disk, and network usage
    • Time to infer a predication
    • Потребляемая мощность

    However, quantization sometimes decreases the correctness of a model's predictions.

очередь

#TensorFlow

A TensorFlow Operation that implements a queue data structure. Typically used in I/O.

Р

RAG

#fundamentals

Аббревиатура для генерации с расширенным поиском .

random forest

#df

An ensemble of decision trees in which each decision tree is trained with a specific random noise, such as bagging .

Random forests are a type of decision forest .

random policy

#рл

In reinforcement learning , a policy that chooses an action at random.

rank (ordinality)

The ordinal position of a class in a machine learning problem that categorizes classes from highest to lowest. For example, a behavior ranking system could rank a dog's rewards from highest (a steak) to lowest (wilted kale).

rank (Tensor)

#TensorFlow

The number of dimensions in a Tensor . For example, a scalar has rank 0, a vector has rank 1, and a matrix has rank 2.

Not to be confused with rank (ordinality) .

рейтинг

A type of supervised learning whose objective is to order a list of items.

оценщик

#fundamentals

Человек, который дает ярлыки для примеров . «Аннотатор» — другое название оценщика.

отзывать

A metric for classification models that answers the following question:

When ground truth was the positive class , what percentage of predictions did the model correctly identify as the positive class?

Вот формула:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

  • true positive means the model correctly predicted the positive class.
  • false negative means that the model mistakenly predicted the negative class .

For instance, suppose your model made 200 predictions on examples for which ground truth was the positive class. Of these 200 predictions:

  • 180 were true positives.
  • 20 were false negatives.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

See Classification: Accuracy, recall, precision and related metrics for more information.

recall at k (recall@k)

#язык

A metric for evaluating systems that output a ranked (ordered) list of items. Recall at k identifies the fraction of relevant items in the first k items in that list out of the total number of relevant items returned.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrast with precision at k .

система рекомендаций

#recsystems

A system that selects for each user a relatively small set of desirable items from a large corpus. For example, a video recommendation system might recommend two videos from a corpus of 100,000 videos, selecting Casablanca and The Philadelphia Story for one user, and Wonder Woman and Black Panther for another. A video recommendation system might base its recommendations on factors such as:

  • Movies that similar users have rated or watched.
  • Genre, directors, actors, target demographic...

Выпрямленный линейный блок (ReLU)

#fundamentals

Функция активации со следующим поведением:

  • Если вход отрицательный или нулевой, то выход равен 0.
  • Если вход положительный, то выход равен входу.

Например:

  • Если на входе -3, то на выходе 0.
  • Если на входе +3, то на выходе 3,0.

Вот сюжет ReLU:

Декартов график из двух линий. В первой строке есть константа           значение y, равное 0, вдоль оси X от -бесконечности,0 до 0,-0.           Вторая строка начинается с 0,0. Эта линия имеет наклон +1, поэтому           он работает от 0,0 до +бесконечности,+бесконечности.

ReLU is a very popular activation function. Несмотря на простоту поведения, ReLU по-прежнему позволяет нейронной сети изучать нелинейные связи между объектами и меткой .

рекуррентная нейронная сеть

#seq

A neural network that is intentionally run multiple times, where parts of each run feed into the next run. Specifically, hidden layers from the previous run provide part of the input to the same hidden layer in the next run. Recurrent neural networks are particularly useful for evaluating sequences, so that the hidden layers can learn from previous runs of the neural network on earlier parts of the sequence.

For example, the following figure shows a recurrent neural network that runs four times. Notice that the values learned in the hidden layers from the first run become part of the input to the same hidden layers in the second run. Similarly, the values learned in the hidden layer on the second run become part of the input to the same hidden layer in the third run. In this way, the recurrent neural network gradually trains and predicts the meaning of the entire sequence rather than just the meaning of individual words.

An RNN that runs four times to process four input words.

reference text

#язык
#генеративныйИИ

An expert's response to a prompt . For example, given the following prompt:

Translate the question "What is your name?" from English to French.

An expert's response might be:

Comment vous appelez-vous?

Various metrics (such as ROUGE ) measure the degree to which the reference text matches an ML model's generated text .

регрессионная модель

#fundamentals

Неформально — модель, генерирующая численный прогноз. (Напротив, модель классификации генерирует прогноз класса.) Например, все следующие модели регрессии:

  • Модель, которая прогнозирует стоимость определенного дома в евро, например 423 000.
  • Модель, которая предсказывает ожидаемую продолжительность жизни определенного дерева в годах, например 23,2.
  • Модель, которая прогнозирует количество осадков в дюймах, которые выпадут в определенном городе в течение следующих шести часов, например 0,18.

Два распространенных типа регрессионных моделей:

  • Линейная регрессия : находит линию, которая лучше всего соответствует значениям меток объектам.
  • Логистическая регрессия , которая генерирует вероятность от 0,0 до 1,0, которую система обычно затем сопоставляет с прогнозом класса.

Не каждая модель, которая выдает числовые прогнозы, является регрессионной моделью. В некоторых случаях числовое предсказание на самом деле представляет собой просто модель классификации, которая имеет числовые имена классов. Например, модель, которая прогнозирует числовой почтовый индекс, является моделью классификации, а не моделью регрессии.

regularization

#fundamentals

Любой механизм, который уменьшает переобучение . Популярные типы регуляризации включают в себя:

Регуляризацию также можно определить как штраф за сложность модели.

ставка регуляризации

#fundamentals

Число, указывающее относительную важность регуляризации во время обучения. Повышение уровня регуляризации уменьшает переобучение , но может снизить предсказательную силу модели. И наоборот, уменьшение или исключение уровня регуляризации увеличивает переобучение.

reinforcement learning (RL)

#рл

A family of algorithms that learn an optimal policy , whose goal is to maximize return when interacting with an environment . For example, the ultimate reward of most games is victory. Reinforcement learning systems can become expert at playing complex games by evaluating sequences of previous game moves that ultimately led to wins and sequences that ultimately led to losses.

Reinforcement Learning from Human Feedback (RLHF)

#генеративныйИИ
#рл

Using feedback from human raters to improve the quality of a model's responses. For example, an RLHF mechanism can ask users to rate the quality of a model's response with a 👍 or 👎 emoji. The system can then adjust its future responses based on that feedback.

РеЛУ

#fundamentals

Сокращение от «Выпрямленный линейный агрегат» .

replay buffer

#рл

In DQN -like algorithms, the memory used by the agent to store state transitions for use in experience replay .

копия

A copy of the training set or model , typically on another machine. For example, a system could use the following strategy for implementing data parallelism :

  1. Place replicas of an existing model on multiple machines.
  2. Send different subsets of the training set to each replica.
  3. Aggregate the parameter updates.

предвзятость в отчетности

#справедливость

The fact that the frequency with which people write about actions, outcomes, or properties is not a reflection of their real-world frequencies or the degree to which a property is characteristic of a class of individuals. Предвзятость отчетности может повлиять на состав данных, на которых учатся системы машинного обучения.

Например, в книгах слово «смеяться» встречается чаще, чем «дышать» . Модель машинного обучения, которая оценивает относительную частоту смеха и дыхания по корпусу книг, вероятно, определит, что смех встречается чаще, чем дыхание.

представительство

The process of mapping data to useful features .

re-ranking

#recsystems

The final stage of a recommendation system , during which scored items may be re-graded according to some other (typically, non-ML) algorithm. Re-ranking evaluates the list of items generated by the scoring phase, taking actions such as:

  • Eliminating items that the user has already purchased.
  • Boosting the score of fresher items.

генерация с расширенным поиском (RAG)

#основы

Метод улучшения качества результатов модели большого языка (LLM) путем ее обоснования источниками знаний, полученными после обучения модели. RAG повышает точность ответов LLM, предоставляя обученному LLM доступ к информации, полученной из надежных баз знаний или документов.

Общие мотивы для использования генерации с расширенным поиском включают в себя:

  • Повышение фактической точности сгенерированных ответов модели.
  • Предоставление модели доступа к знаниям, которым она не обучалась.
  • Изменение знаний, которые использует модель.
  • Включение модели для цитирования источников.

Например, предположим, что приложение по химии использует API PaLM для создания сводок, связанных с запросами пользователей. Когда серверная часть приложения получает запрос, серверная часть:

  1. Ищет («извлекает») данные, соответствующие запросу пользователя.
  2. Добавляет («дополняет») соответствующие химические данные к запросу пользователя.
  3. Указывает LLM создать сводку на основе добавленных данных.

возвращаться

#рл

In reinforcement learning, given a certain policy and a certain state, the return is the sum of all rewards that the agent expects to receive when following the policy from the state to the end of the episode . The agent accounts for the delayed nature of expected rewards by discounting rewards according to the state transitions required to obtain the reward.

Therefore, if the discount factor is \(\gamma\), и \(r_0, \ldots, r_{N}\)denote the rewards until the end of the episode, then the return calculation is as follows:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

награда

#рл

In reinforcement learning, the numerical result of taking an action in a state , as defined by the environment .

ridge regularization

Synonym for L 2 regularization . The term ridge regularization is more frequently used in pure statistics contexts, whereas L 2 regularization is used more often in machine learning.

RNN

#seq

Abbreviation for recurrent neural networks .

Кривая ROC (рабочая характеристика приемника)

#fundamentals

График зависимости истинно положительного результата от ложноположительного для различных порогов классификации в бинарной классификации.

Форма кривой ROC предполагает способность модели бинарной классификации отделять положительные классы от отрицательных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:

Номерная строка с 8 положительными примерами на правой стороне и           7 отрицательных примеров слева.

Кривая ROC для предыдущей модели выглядит следующим образом:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов.           является истинно положительным коэффициентом. Кривая имеет форму перевернутой буквы L. Кривая           начинается с (0.0,0.0) и идет прямо до (0.0,1.0). Тогда кривая           переходит от (0.0,1.0) к (1.0,1.0).

Напротив, на следующей иллюстрации показаны необработанные значения логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:

Числовая линия с положительными примерами и отрицательными классами           полностью перемешаны.

Кривая ROC для этой модели выглядит следующим образом:

Кривая ROC, которая на самом деле представляет собой прямую линию от (0,0,0,0).           до (1.0,1.0).

Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не идеально. Итак, типичная кривая ROC находится где-то между двумя крайностями:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов.           является истинно положительным коэффициентом. Кривая ROC представляет собой шаткую дугу.           пересекая направления компаса с запада на север.

Точка на кривой ROC, ближайшая к (0,0,1,0), теоретически определяет идеальный порог классификации. Однако на выбор идеального порога классификации влияют несколько других проблем реального мира. Например, возможно, ложноотрицательные результаты причиняют гораздо больше боли, чем ложноположительные.

Числовая метрика, называемая AUC, суммирует кривую ROC в одно значение с плавающей запятой.

role prompting

#язык
#генеративныйИИ

An optional part of a prompt that identifies a target audience for a generative AI model's response. Without a role prompt, a large language model provides an answer that may or may not be useful for the person asking the questions. With a role prompt, a large language model can answer in a way that's more appropriate and more helpful for a specific target audience. For example, the role prompt portion of the following prompts are in boldface:

  • Summarize this article for a PhD in economics .
  • Describe how tides work for a ten-year old .
  • Explain the 2008 financial crisis. Speak as you might to a young child, or a golden retriever.

корень

#df

The starting node (the first condition ) in a decision tree . By convention, diagrams put the root at the top of the decision tree. Например:

A decision tree with two conditions and three leaves.           starting condition (x > 2) is the root.

корневой каталог

#TensorFlow

The directory you specify for hosting subdirectories of the TensorFlow checkpoint and events files of multiple models.

Среднеквадратическая ошибка (RMSE)

#fundamentals

Квадратный корень из среднеквадратической ошибки .

rotational invariance

#изображение

In an image classification problem, an algorithm's ability to successfully classify images even when the orientation of the image changes. For example, the algorithm can still identify a tennis racket whether it is pointing up, sideways, or down. Note that rotational invariance is not always desirable; for example, an upside-down 9 shouldn't be classified as a 9.

See also translational invariance and size invariance .

ROUGE (Дублер, ориентированный на отзыв, для оценки Gisting)

#язык

A family of metrics that evaluate automatic summarization and machine translation models. ROUGE metrics determine the degree to which a reference text overlaps an ML model's generated text . Each member of the ROUGE family measures overlap in a different way. Higher ROUGE scores indicate more similarity between the reference text and generated text than lower ROUGE scores.

Each ROUGE family member typically generates the following metrics:

  • Точность
  • Отзывать
  • Ф 1

For details and examples, see:

РУЖ-Л

#язык

A member of the ROUGE family focused on the length of the longest common subsequence in the reference text and generated text . The following formulas calculate recall and precision for ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

You can then use F 1 to roll up ROUGE-L recall and ROUGE-L precision into a single metric:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignores any newlines in the reference text and generated text, so the longest common subsequence could cross multiple sentences. When the reference text and generated text involve multiple sentences, a variation of ROUGE-L called ROUGE-Lsum is generally a better metric. ROUGE-Lsum determines the longest common subsequence for each sentence in a passage and then calculates the mean of those longest common subsequences.

ROUGE-N

#язык

A set of metrics within the ROUGE family that compares the shared N-grams of a certain size in the reference text and generated text . Например:

  • ROUGE-1 measures the number of shared tokens in the reference text and generated text.
  • ROUGE-2 measures the number of shared bigrams (2-grams) in the reference text and generated text.
  • ROUGE-3 measures the number of shared trigrams (3-grams) in the reference text and generated text.

You can use the following formulas to calculate ROUGE-N recall and ROUGE-N precision for any member of the ROUGE-N family:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

You can then use F 1 to roll up ROUGE-N recall and ROUGE-N precision into a single metric:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#язык

A forgiving form of ROUGE-N that enables skip-gram matching. That is, ROUGE-N only counts N-grams that match exactly , but ROUGE-S also counts N-grams separated by one or more words. For example, consider the following:

When calculating ROUGE-N, the 2-gram, White clouds doesn't match White billowing clouds . However, when calculating ROUGE-S, White clouds does match White billowing clouds .

R-squared

A regression metric indicating how much variation in a label is due to an individual feature or to a feature set. R-squared is a value between 0 and 1, which you can interpret as follows:

  • An R-squared of 0 means that none of a label's variation is due to the feature set.
  • An R-squared of 1 means that all of a label's variation is due to the feature set.
  • An R-squared between 0 and 1 indicates the extent to which the label's variation can be predicted from a particular feature or the feature set. For example, an R-squared of 0.10 means that 10 percent of the variance in the label is due to the feature set, an R-squared of 0.20 means that 20 percent is due to the feature set, and so on.

R-squared is the square of the Pearson correlation coefficient between the values that a model predicted and ground truth .

С

смещение выборки

#справедливость

См. смещение выбора .

sampling with replacement

#df

A method of picking items from a set of candidate items in which the same item can be picked multiple times. The phrase "with replacement" means that after each selection, the selected item is returned to the pool of candidate items. The inverse method, sampling without replacement , means that a candidate item can only be picked once.

For example, consider the following fruit set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suppose that the system randomly picks fig as the first item. If using sampling with replacement, then the system picks the second item from the following set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Yes, that's the same set as before, so the system could potentially pick fig again.

If using sampling without replacement, once picked, a sample can't be picked again. For example, if the system randomly picks fig as the first sample, then fig can't be picked again. Therefore, the system picks the second sample from the following (reduced) set:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

The recommended format for saving and recovering TensorFlow models. SavedModel is a language-neutral, recoverable serialization format, which enables higher-level systems and tools to produce, consume, and transform TensorFlow models.

See the Saving and Restoring section of the TensorFlow Programmer's Guide for complete details.

Экономьте

#TensorFlow

A TensorFlow object responsible for saving model checkpoints.

скаляр

A single number or a single string that can be represented as a tensor of rank 0. For example, the following lines of code each create one scalar in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

масштабирование

Any mathematical transform or technique that shifts the range of a label and/or feature value. Some forms of scaling are very useful for transformations like normalization .

Common forms of scaling useful in Machine Learning include:

  • linear scaling, which typically uses a combination of subtraction and division to replace the original value with a number between -1 and +1 or between 0 and 1.
  • logarithmic scaling, which replaces the original value with its logarithm.
  • Z-score normalization , which replaces the original value with a floating-point value representing the number of standard deviations from that feature's mean.

scikit-learn

A popular open-source machine learning platform. See scikit-learn.org .

подсчет очков

#recsystems

The part of a recommendation system that provides a value or ranking for each item produced by the candidate generation phase.

предвзятость отбора

#справедливость

Ошибки в выводах, сделанных на основе выборочных данных, из-за процесса отбора, который приводит к систематическим различиям между выборками, наблюдаемыми в данных, и теми, которые не наблюдались. Существуют следующие формы систематической ошибки отбора:

  • смещение охвата : популяция, представленная в наборе данных, не соответствует популяции, о которой прогнозирует модель машинного обучения.
  • систематическая ошибка выборки : данные из целевой группы собираются не случайным образом.
  • non-response bias (also called participation bias ): Users from certain groups opt-out of surveys at different rates than users from other groups.

Например, предположим, что вы создаете модель машинного обучения, которая предсказывает удовольствие людей от фильма. Чтобы собрать данные обучения, вы раздаете опросник всем, кто находится в первом ряду кинотеатра, где показывают фильм. На первый взгляд это может показаться разумным способом сбора набора данных; однако эта форма сбора данных может привести к следующим формам систематической ошибки отбора:

  • предвзятость охвата: при выборке из группы населения, которая решила посмотреть фильм, прогнозы вашей модели могут не распространяться на людей, которые еще не проявили такой уровень интереса к фильму.
  • смещение выборки: вместо случайной выборки из предполагаемой совокупности (всех людей в фильме) вы выбрали только людей в первом ряду. Возможно, что люди, сидевшие в первом ряду, заинтересовались фильмом больше, чем те, кто сидел в других рядах.
  • предвзятость в связи с отсутствием ответов. В целом, люди с сильными мнениями склонны отвечать на дополнительные опросы чаще, чем люди с умеренными мнениями. Поскольку опрос по фильму не является обязательным, ответы с большей вероятностью образуют бимодальное распределение, чем нормальное (колокольчатое) распределение.

self-attention (also called self-attention layer)

#язык

A neural network layer that transforms a sequence of embeddings (for example, token embeddings) into another sequence of embeddings. Each embedding in the output sequence is constructed by integrating information from the elements of the input sequence through an attention mechanism.

The self part of self-attention refers to the sequence attending to itself rather than to some other context. Self-attention is one of the main building blocks for Transformers and uses dictionary lookup terminology, such as "query", "key", and "value".

A self-attention layer starts with a sequence of input representations, one for each word. The input representation for a word can be a simple embedding. For each word in an input sequence, the network scores the relevance of the word to every element in the whole sequence of words. The relevance scores determine how much the word's final representation incorporates the representations of other words.

Например, рассмотрим следующее предложение:

The animal didn't cross the street because it was too tired.

The following illustration (from Transformer: A Novel Neural Network Architecture for Language Understanding ) shows a self-attention layer's attention pattern for the pronoun it , with the darkness of each line indicating how much each word contributes to the representation:

The following sentence appears twice: The animal didn't cross the
          street because it was too tired. Lines connect the pronoun it in
          one sentence to five tokens (The, animal, street, it, and
          the period) in the other sentence.  The line between the pronoun it
          and the word animal is strongest.

The self-attention layer highlights words that are relevant to "it". In this case, the attention layer has learned to highlight words that it might refer to, assigning the highest weight to animal .

For a sequence of n tokens , self-attention transforms a sequence of embeddings n separate times, once at each position in the sequence.

Refer also to attention and multi-head self-attention .

self-supervised learning

A family of techniques for converting an unsupervised machine learning problem into a supervised machine learning problem by creating surrogate labels from unlabeled examples .

Some Transformer -based models such as BERT use self-supervised learning.

Self-supervised training is a semi-supervised learning approach.

self-training

A variant of self-supervised learning that is particularly useful when all of the following conditions are true:

Self-training works by iterating over the following two steps until the model stops improving:

  1. Use supervised machine learning to train a model on the labeled examples.
  2. Use the model created in Step 1 to generate predictions (labels) on the unlabeled examples, moving those in which there is high confidence into the labeled examples with the predicted label.

Notice that each iteration of Step 2 adds more labeled examples for Step 1 to train on.

semi-supervised learning

Training a model on data where some of the training examples have labels but others don't. One technique for semi-supervised learning is to infer labels for the unlabeled examples, and then to train on the inferred labels to create a new model. Semi-supervised learning can be useful if labels are expensive to obtain but unlabeled examples are plentiful.

Self-training is one technique for semi-supervised learning.

чувствительный атрибут

#справедливость
Человеческий атрибут, которому можно уделять особое внимание по юридическим, этическим, социальным или личным причинам.

анализ настроений

#язык

Using statistical or machine learning algorithms to determine a group's overall attitude—positive or negative—toward a service, product, organization, or topic. For example, using natural language understanding , an algorithm could perform sentiment analysis on the textual feedback from a university course to determine the degree to which students generally liked or disliked the course.

sequence model

#seq

A model whose inputs have a sequential dependence. For example, predicting the next video watched from a sequence of previously watched videos.

sequence-to-sequence task

#язык

A task that converts an input sequence of tokens to an output sequence of tokens. For example, two popular kinds of sequence-to-sequence tasks are:

  • Translators:
    • Sample input sequence: "I love you."
    • Sample output sequence: "Je t'aime."
  • Question answering:
    • Sample input sequence: "Do I need my car in New York City?"
    • Sample output sequence: "No. Please keep your car at home."

сервировка

The process of making a trained model available to provide predictions through online inference or offline inference .

shape (Tensor)

The number of elements in each dimension of a tensor. The shape is represented as a list of integers. For example, the following two-dimensional tensor has a shape of [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow uses row-major (C-style) format to represent the order of dimensions, which is why the shape in TensorFlow is [3,4] rather than [4,3] . In other words, in a two-dimensional TensorFlow Tensor, the shape is [ number of rows , number of columns ] .

A static shape is a tensor shape that is known at compile time.

A dynamic shape is unknown at compile time and is therefore dependent on runtime data. This tensor might be represented with a placeholder dimension in TensorFlow, as in [3, ?] .

осколок

#TensorFlow
#Googlecloud

A logical division of the training set or the model . Typically, some process creates shards by dividing the examples or parameters into (usually) equal-sized chunks. Each shard is then assigned to a different machine.

Sharding a model is called model parallelism ; sharding data is called data parallelism .

усадка

#df

A hyperparameter in gradient boosting that controls overfitting . Shrinkage in gradient boosting is analogous to learning rate in gradient descent . Shrinkage is a decimal value between 0.0 and 1.0. A lower shrinkage value reduces overfitting more than a larger shrinkage value.

сигмовидная функция

#fundamentals

Математическая функция, которая «сжимает» входное значение в ограниченный диапазон, обычно от 0 до 1 или от -1 до +1. То есть вы можете передать любое число (два, миллион, отрицательный миллиард и т. д.) в сигмовидную форму, и результат все равно будет находиться в ограниченном диапазоне. График сигмовидной функции активации выглядит следующим образом:

Двумерный изогнутый график со значениями x, охватывающими область.           от -бесконечности до +положительного, а значения y охватывают диапазон от почти 0 до           почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда           положительный, с наибольшим наклоном 0,0,5 и постепенно уменьшающимся           наклоны по мере увеличения абсолютного значения x.

Сигмовидная функция имеет несколько применений в машинном обучении, в том числе:

similarity measure

#кластеризация

In clustering algorithms, the metric used to determine how alike (how similar) any two examples are.

single program / multiple data (SPMD)

A parallelism technique where the same computation is run on different input data in parallel on different devices. The goal of SPMD is to obtain results more quickly. It is the most common style of parallel programming.

size invariance

#изображение

In an image classification problem, an algorithm's ability to successfully classify images even when the size of the image changes. For example, the algorithm can still identify a cat whether it consumes 2M pixels or 200K pixels. Note that even the best image classification algorithms still have practical limits on size invariance. For example, an algorithm (or human) is unlikely to correctly classify a cat image consuming only 20 pixels.

See also translational invariance and rotational invariance .

sketching

#кластеризация

In unsupervised machine learning , a category of algorithms that perform a preliminary similarity analysis on examples. Sketching algorithms use a locality-sensitive hash function to identify points that are likely to be similar, and then group them into buckets.

Sketching decreases the computation required for similarity calculations on large datasets. Instead of calculating similarity for every single pair of examples in the dataset, we calculate similarity only for each pair of points within each bucket.

skip-gram

#язык

An n-gram which may omit (or "skip") words from the original context, meaning the N words might not have been originally adjacent. More precisely, a "k-skip-n-gram" is an n-gram for which up to k words may have been skipped.

For example, "the quick brown fox" has the following possible 2-grams:

  • "the quick"
  • "quick brown"
  • "brown fox"

A "1-skip-2-gram" is a pair of words that have at most 1 word between them. Therefore, "the quick brown fox" has the following 1-skip 2-grams:

  • "the brown"
  • "quick fox"

In addition, all the 2-grams are also 1-skip-2-grams, since fewer than one word may be skipped.

Skip-grams are useful for understanding more of a word's surrounding context. In the example, "fox" was directly associated with "quick" in the set of 1-skip-2-grams, but not in the set of 2-grams.

Skip-grams help train word embedding models.

Softmax

#основы

A function that determines probabilities for each possible class in a multi-class classification model . Вероятности в сумме составляют ровно 1,0. Например, в следующей таблице показано, как softmax распределяет различные вероятности:

Имидж - это... Вероятность
собака .85
кот .13
лошадь .02

Softmax также называют полным softmax .

Сравните с выборкой кандидатов .

soft prompt tuning

#язык
#генеративныйИИ

A technique for tuning a large language model for a particular task, without resource intensive fine-tuning . Instead of retraining all the weights in the model, soft prompt tuning automatically adjusts a prompt to achieve the same goal.

Given a textual prompt, soft prompt tuning typically appends additional token embeddings to the prompt and uses backpropagation to optimize the input.

A "hard" prompt contains actual tokens instead of token embeddings.

редкая особенность

#язык
#fundamentals

Объект , значения которого преимущественно равны нулю или пусты. Например, объект, содержащий одно значение 1 и миллион значений 0, является редким. Напротив, плотный объект имеет значения, которые преимущественно не равны нулю или пусты.

В машинном обучении удивительное количество функций являются редкими. Категориальные признаки обычно являются редкими. Например, из 300 возможных пород деревьев в лесу единственный пример может идентифицировать только клен . Или из миллионов возможных видео в видеотеке единственный пример может идентифицировать только «Касабланку».

В модели вы обычно представляете разреженные элементы с помощью горячего кодирования . Если горячее кодирование большое, вы можете поместить слой внедрения поверх горячего кодирования для большей эффективности.

редкое представительство

#язык
#fundamentals

Сохранение только позиций ненулевых элементов в разреженном объекте.

Например, предположим, что категориальная особенность, названная species идентифицирует 36 видов деревьев в конкретном лесу. Далее предположим, что каждый пример идентифицирует только один вид.

Вы можете использовать одножелачный вектор для представления видов деревьев в каждом примере. Одножележный вектор будет содержать один 1 (для представления конкретных видов деревьев в этом примере) и 35 0 с (для представления 35 видов деревьев не в этом примере). Таким образом, одножелательное представление о maple может выглядеть как-то вроде следующего:

Вектор, в котором позиции от 0 до 23 удерживают значение 0, позиция           24 имеет значение 1, а позиции с 25 по 35 удерживают значение 0.

В качестве альтернативы, разреженное представление просто идентифицирует положение конкретного вида. Если maple находится в позиции 24, то разреженное представление о maple было бы просто:

24

Обратите внимание, что редкое представление гораздо более компактно, чем одножелательное представление.

редкий вектор

#fundamentals

Вектор, ценности которых в основном нули. Смотрите также разреженную функцию и редкость .

sparsity

The number of elements set to zero (or null) in a vector or matrix divided by the total number of entries in that vector or matrix. For example, consider a 100-element matrix in which 98 cells contain zero. The calculation of sparsity is as follows:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature sparsity refers to the sparsity of a feature vector; model sparsity refers to the sparsity of the model weights.

spatial pooling

#изображение

See pooling .

расколоть

#df

In a decision tree , another name for a condition .

разделитель

#df

While training a decision tree , the routine (and algorithm) responsible for finding the best condition at each node .

SPMD

Abbreviation for single program / multiple data .

squared hinge loss

The square of the hinge loss . Squared hinge loss penalizes outliers more harshly than regular hinge loss.

квадратная потеря

#fundamentals

Синоним L 2 потери .

staged training

#язык

A tactic of training a model in a sequence of discrete stages. The goal can be either to speed up the training process, or to achieve better model quality.

An illustration of the progressive stacking approach is shown below:

  • Stage 1 contains 3 hidden layers, stage 2 contains 6 hidden layers, and stage 3 contains 12 hidden layers.
  • Stage 2 begins training with the weights learned in the 3 hidden layers of Stage 1. Stage 3 begins training with the weights learned in the 6 hidden layers of Stage 2.

Three stages, which are labeled Stage 1, Stage 2, and Stage 3.
          Each stage contains a different number of layers: Stage 1 contains
          3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.
          The 3 layers from Stage 1 become the first 3 layers of Stage 2.
          Similarly, the 6 layers from Stage 2 become the first 6 layers of
          Stage 3.

See also pipelining .

состояние

#рл

In reinforcement learning, the parameter values that describe the current configuration of the environment, which the agent uses to choose an action .

state-action value function

#рл

Synonym for Q-function .

статический

#fundamentals

Что -то сделано один раз, а не непрерывно. Условия статического и офлайн являются синонимами. Ниже приведены обычные использование статического и офлайн в машинном обучении:

  • Статическая модель (или автономная модель ) - это модель, обученная один раз, а затем некоторое время используется.
  • Статическое обучение (или офлайн -обучение ) - это процесс обучения статической модели.
  • Статический вывод (или автономный вывод ) - это процесс, в котором модель генерирует партию прогнозов одновременно.

Контраст с динамикой .

Статический вывод

#fundamentals

Синоним вывода в автономном режиме .

стационарность

#fundamentals

Функция, значения которых не меняются в одном или нескольких измерениях, обычно время. Например, функция, чьи значения выглядят так же в 2021 и 2023 годах, демонстрирует стационарность.

В реальном мире очень немногие особенности выставлены стационарностью. Даже функции синонимично со временем изменяются со стабильностью (например, уровень моря).

Контраст с нестационарностью .

шаг

A forward pass and backward pass of one batch .

See backpropagation for more information on the forward pass and backward pass.

step size

Synonym for learning rate .

Стохастический градиент спуск (SGD)

#fundamentals

Алгоритм градиентного спуска , в котором размер партии один. Другими словами, SGD тренируется по одному примеру, выбранному в случайном роде из учебного набора .

шагать

#изображение

In a convolutional operation or pooling, the delta in each dimension of the next series of input slices. For example, the following animation demonstrates a (1,1) stride during a convolutional operation. Therefore, the next input slice starts one position to the right of the previous input slice. When the operation reaches the right edge, the next slice is all the way over to the left but one position down.

An input 5x5 matrix and a 3x3 convolutional filter. Потому что      stride is (1,1), a convolutional filter will be applied 9 times. Первый      convolutional slice evaluates the top-left 3x3 submatrix of the input      matrix. The second slice evaluates the top-middle 3x3      submatrix. The third convolutional slice evaluates the top-right 3x3      submatrix.  The fourth slice evaluates the middle-left 3x3 submatrix.      The fifth slice evaluates the middle 3x3 submatrix. The sixth slice      evaluates the middle-right 3x3 submatrix. The seventh slice evaluates      the bottom-left 3x3 submatrix.  The eighth slice evaluates the      bottom-middle 3x3 submatrix. The ninth slice evaluates the bottom-right 3x3      submatrix.

The preceding example demonstrates a two-dimensional stride. If the input matrix is three-dimensional, the stride would also be three-dimensional.

structural risk minimization (SRM)

An algorithm that balances two goals:

  • The need to build the most predictive model (for example, lowest loss).
  • The need to keep the model as simple as possible (for example, strong regularization).

For example, a function that minimizes loss+regularization on the training set is a structural risk minimization algorithm.

Contrast with empirical risk minimization .

subsampling

#изображение

See pooling .

subword token

#язык

In language models , a token that is a substring of a word, which may be the entire word.

For example, a word like "itemize" might be broken up into the pieces "item" (a root word) and "ize" (a suffix), each of which is represented by its own token. Splitting uncommon words into such pieces, called subwords, allows language models to operate on the word's more common constituent parts, such as prefixes and suffixes.

Conversely, common words like "going" might not be broken up and might be represented by a single token.

краткое содержание

#TensorFlow

In TensorFlow, a value or set of values calculated at a particular step , usually used for tracking model metrics during training.

контролируемое машинное обучение

#fundamentals

Обучение модели из функций и их соответствующих ярлыков . Наблюдаемое машинное обучение аналогично изучению предмета путем изучения набора вопросов и соответствующих ответов. После овладения картированием между вопросами и ответами, студент может дать ответы на новые (никогда не видно) вопросах на одну и ту же тему.

Сравните с неконтролируемым машинным обучением .

синтетическая особенность

#fundamentals

Функция не присутствует среди входных функций, но собрана из одного или нескольких из них. Методы создания синтетических особенностей включают следующее:

  • Ведение непрерывной функции в мусорные баки.
  • Создание функционального креста .
  • Умножение (или делясь) одно значение функции на другие значения (ы) функции или сами по себе. Например, если a и b являются входными характеристиками, то следующие примеры синтетических функций:
    • аб
    • a 2
  • Применение трансцендентальной функции к значению функции. Например, если c является входной функцией, то следующие примеры синтетических функций:
    • грех (c)
    • ln (c)

Особенности, созданные путем нормализации или масштабирования , не считаются синтетическими особенностями.

Т

Т5

#язык

A text-to-text transfer learning model introduced by Google AI in 2020 . T5 is an encoder - decoder model, based on the Transformer architecture, trained on an extremely large dataset. It is effective at a variety of natural language processing tasks, such as generating text, translating languages, and answering questions in a conversational manner.

T5 gets its name from the five T's in "Text-to-Text Transfer Transformer."

T5X

#язык

An open-source, machine learning framework designed to build and train large-scale natural language processing (NLP) models. T5 is implemented on the T5X codebase (which is built on JAX and Flax ).

tabular Q-learning

#рл

In reinforcement learning , implementing Q-learning by using a table to store the Q-functions for every combination of state and action .

цель

Synonym for label .

target network

#рл

In Deep Q-learning , a neural network that is a stable approximation of the main neural network, where the main neural network implements either a Q-function or a policy . Then, you can train the main network on the Q-values predicted by the target network. Therefore, you prevent the feedback loop that occurs when the main network trains on Q-values predicted by itself. By avoiding this feedback, training stability increases.

задача

A problem that can be solved using machine learning techniques, such as:

температура

#язык
#изображение
#генеративныйИИ

A hyperparameter that controls the degree of randomness of a model's output. Higher temperatures result in more random output, while lower temperatures result in less random output.

Choosing the best temperature depends on the specific application and the preferred properties of the model's output. For example, you would probably raise the temperature when creating an application that generates creative output. Conversely, you would probably lower the temperature when building a model that classifies images or text in order to improve the model's accuracy and consistency.

Temperature is often used with softmax .

temporal data

Data recorded at different points in time. For example, winter coat sales recorded for each day of the year would be temporal data.

Тензор

#TensorFlow

The primary data structure in TensorFlow programs. Tensors are N-dimensional (where N could be very large) data structures, most commonly scalars, vectors, or matrixes. The elements of a Tensor can hold integer, floating-point, or string values.

TensorBoard

#TensorFlow

The dashboard that displays the summaries saved during the execution of one or more TensorFlow programs.

Тензорфлоу

#TensorFlow

A large-scale, distributed, machine learning platform. The term also refers to the base API layer in the TensorFlow stack, which supports general computation on dataflow graphs.

Although TensorFlow is primarily used for machine learning, you may also use TensorFlow for non-ML tasks that require numerical computation using dataflow graphs.

TensorFlow Playground

#TensorFlow

A program that visualizes how different hyperparameters influence model (primarily neural network) training. Go to http://playground.tensorflow.org to experiment with TensorFlow Playground.

TensorFlow Serving

#TensorFlow

A platform to deploy trained models in production.

Tensor Processing Unit (TPU)

#TensorFlow
#Googlecloud

An application-specific integrated circuit (ASIC) that optimizes the performance of machine learning workloads. These ASICs are deployed as multiple TPU chips on a TPU device .

Tensor rank

#TensorFlow

See rank (Tensor) .

Tensor shape

#TensorFlow

The number of elements a Tensor contains in various dimensions. For example, a [5, 10] Tensor has a shape of 5 in one dimension and 10 in another.

Tensor size

#TensorFlow

The total number of scalars a Tensor contains. For example, a [5, 10] Tensor has a size of 50.

TensorStore

A library for efficiently reading and writing large multi-dimensional arrays.

termination condition

#рл

In reinforcement learning , the conditions that determine when an episode ends, such as when the agent reaches a certain state or exceeds a threshold number of state transitions. For example, in tic-tac-toe (also known as noughts and crosses), an episode terminates either when a player marks three consecutive spaces or when all spaces are marked.

тест

#df

In a decision tree , another name for a condition .

Тестовая потеря

#fundamentals

Метрика, представляющая потерю модели против испытательного набора . При создании модели вы обычно пытаетесь минимизировать потерю тестов. Это связано с тем, что низкая потеря тестов является более сильным сигналом качества, чем низкая потери тренировок или низкая потери проверки .

Большой разрыв между потерей теста и потерей обучения или потерей проверки иногда предполагает, что вам необходимо увеличить частоту регуляризации .

test set

A subset of the dataset reserved for testing a trained model .

Traditionally, you divide examples in the dataset into the following three distinct subsets:

Each example in a dataset should belong to only one of the preceding subsets. For instance, a single example shouldn't belong to both the training set and the test set.

The training set and validation set are both closely tied to training a model. Because the test set is only indirectly associated with training, test loss is a less biased, higher quality metric than training loss or validation loss .

text span

#язык

The array index span associated with a specific subsection of a text string. For example, the word good in the Python string s="Be good now" occupies the text span from 3 to 6.

tf.Example

#TensorFlow

A standard protocol buffer for describing input data for machine learning model training or inference.

tf.keras

#TensorFlow

An implementation of Keras integrated into TensorFlow .

threshold (for decision trees)

#df

In an axis-aligned condition , the value that a feature is being compared against. For example, 75 is the threshold value in the following condition:

grade >= 75

time series analysis

#кластеризация

A subfield of machine learning and statistics that analyzes temporal data . Many types of machine learning problems require time series analysis, including classification, clustering, forecasting, and anomaly detection. For example, you could use time series analysis to forecast the future sales of winter coats by month based on historical sales data.

timestep

#seq

One "unrolled" cell within a recurrent neural network . For example, the following figure shows three timesteps (labeled with the subscripts t-1, t, and t+1):

Three timesteps in a recurrent neural network. The output of the
          first timestep becomes input to the second timestep. The output
          of the second timestep becomes input to the third timestep.

жетон

#язык

In a language model , the atomic unit that the model is training on and making predictions on. A token is typically one of the following:

  • a word—for example, the phrase "dogs like cats" consists of three word tokens: "dogs", "like", and "cats".
  • a character—for example, the phrase "bike fish" consists of nine character tokens. (Note that the blank space counts as one of the tokens.)
  • subwords—in which a single word can be a single token or multiple tokens. A subword consists of a root word, a prefix, or a suffix. For example, a language model that uses subwords as tokens might view the word "dogs" as two tokens (the root word "dog" and the plural suffix "s"). That same language model might view the single word "taller" as two subwords (the root word "tall" and the suffix "er").

In domains outside of language models, tokens can represent other kinds of atomic units. For example, in computer vision, a token might be a subset of an image.

top-k accuracy

#язык

The percentage of times that a "target label" appears within the first k positions of generated lists. The lists could be personalized recommendations or a list of items ordered by softmax .

Top-k accuracy is also known as accuracy at k .

башня

A component of a deep neural network that is itself a deep neural network. In some cases, each tower reads from an independent data source, and those towers stay independent until their output is combined in a final layer. In other cases, (for example, in the encoder and decoder tower of many Transformers ), towers have cross-connections to each other.

toxicity

#язык

The degree to which content is abusive, threatening, or offensive. Many machine learning models can identify and measure toxicity. Most of these models identify toxicity along multiple parameters, such as the level of abusive language and the level of threatening language.

TPU

#TensorFlow
#Googlecloud

Abbreviation for Tensor Processing Unit .

TPU chip

#TensorFlow
#Googlecloud

A programmable linear algebra accelerator with on-chip high bandwidth memory that is optimized for machine learning workloads. Multiple TPU chips are deployed on a TPU device .

TPU device

#TensorFlow
#Googlecloud

A printed circuit board (PCB) with multiple TPU chips , high bandwidth network interfaces, and system cooling hardware.

TPU master

#TensorFlow
#Googlecloud

The central coordination process running on a host machine that sends and receives data, results, programs, performance, and system health information to the TPU workers . The TPU master also manages the setup and shutdown of TPU devices .

TPU node

#TensorFlow
#Googlecloud

A TPU resource on Google Cloud with a specific TPU type . The TPU node connects to your VPC Network from a peer VPC network . TPU nodes are a resource defined in the Cloud TPU API .

TPU Pod

#TensorFlow
#Googlecloud

A specific configuration of TPU devices in a Google data center. All of the devices in a TPU Pod are connected to one another over a dedicated high-speed network. A TPU Pod is the largest configuration of TPU devices available for a specific TPU version.

TPU resource

#TensorFlow
#Googlecloud

A TPU entity on Google Cloud that you create, manage, or consume. For example, TPU nodes and TPU types are TPU resources.

TPU slice

#TensorFlow
#Googlecloud

A TPU slice is a fractional portion of the TPU devices in a TPU Pod . All of the devices in a TPU slice are connected to one another over a dedicated high-speed network.

TPU type

#TensorFlow
#Googlecloud

A configuration of one or more TPU devices with a specific TPU hardware version. You select a TPU type when you create a TPU node on Google Cloud. For example, a v2-8 TPU type is a single TPU v2 device with 8 cores. A v3-2048 TPU type has 256 networked TPU v3 devices and a total of 2048 cores. TPU types are a resource defined in the Cloud TPU API .

TPU worker

#TensorFlow
#Googlecloud

A process that runs on a host machine and executes machine learning programs on TPU devices .

обучение

#fundamentals

Процесс определения идеальных параметров (веса и смещения), включающий модель . Во время обучения система читает в примерах и постепенно корректирует параметры. Обучение использует каждый пример от нескольких раз до миллиардов раз.

потеря тренировки

#fundamentals

Метрика, представляющая потерю модели во время конкретной учебной итерации. Например, предположим, что функция потери является средней квадратной ошибкой . Возможно, потери обучения (средняя квадратная ошибка) для 10 -й итерации составляет 2,2, а утрата обучения для 100 -й итерации составляет 1,9.

Кривая потерь определяет потерю обучения по сравнению с количеством итераций. Кривая потерь дает следующие намеки на обучение:

  • Нисходящий наклон подразумевает, что модель улучшается.
  • Вверх уклон подразумевает, что модель ухудшается.
  • Плоский наклон подразумевает, что модель достигла сходимости .

Например, на следующей несколько идеализированной кривой потерь показывает:

  • Крутой наклон вниз во время начальных итераций, что подразумевает быстрое улучшение модели.
  • Постепенно сглаживающий (но все еще вниз) наклон до конца тренировок, что подразумевает продолжающееся улучшение модели в несколько более медленном темпе, чем во время начальных итераций.
  • Плоский склон к концу тренировок, который предполагает сходимость.

Сюжет потери обучения по сравнению с итерациями. Эта кривая потерь начинается      с крутым вниз склоном. Склон постепенно сглаживается, пока      склон становится нулевым.

Хотя убытка обучения важна, см. Также обобщение .

Обучение, проведенному на тренировке

#fundamentals

Разница между производительностью модели во время обучения и производительности той же модели во время подачи .

обучающий набор

#fundamentals

Подмножество набора данных, используемого для обучения модели .

Традиционно, примеры в наборе данных делятся на следующие три отделения подмножества:

В идеале каждый пример в наборе данных должен принадлежать только к одному из предыдущих подмножеств. Например, один пример не должен принадлежать как набору обучения, так и к набору валидации.

траектория

#рл

In reinforcement learning , a sequence of tuples that represent a sequence of state transitions of the agent , where each tuple corresponds to the state, action , reward , and next state for a given state transition.

трансферное обучение

Transferring information from one machine learning task to another. For example, in multi-task learning, a single model solves multiple tasks, such as a deep model that has different output nodes for different tasks. Transfer learning might involve transferring knowledge from the solution of a simpler task to a more complex one, or involve transferring knowledge from a task where there is more data to one where there is less data.

Most machine learning systems solve a single task. Transfer learning is a baby step towards artificial intelligence in which a single program can solve multiple tasks.

Трансформатор

#язык

A neural network architecture developed at Google that relies on self-attention mechanisms to transform a sequence of input embeddings into a sequence of output embeddings without relying on convolutions or recurrent neural networks . A Transformer can be viewed as a stack of self-attention layers.

A Transformer can include any of the following:

An encoder transforms a sequence of embeddings into a new sequence of the same length. An encoder includes N identical layers, each of which contains two sub-layers. These two sub-layers are applied at each position of the input embedding sequence, transforming each element of the sequence into a new embedding. The first encoder sub-layer aggregates information from across the input sequence. The second encoder sub-layer transforms the aggregated information into an output embedding.

A decoder transforms a sequence of input embeddings into a sequence of output embeddings, possibly with a different length. A decoder also includes N identical layers with three sub-layers, two of which are similar to the encoder sub-layers. The third decoder sub-layer takes the output of the encoder and applies the self-attention mechanism to gather information from it.

The blog post Transformer: A Novel Neural Network Architecture for Language Understanding provides a good introduction to Transformers.

translational invariance

#изображение

In an image classification problem, an algorithm's ability to successfully classify images even when the position of objects within the image changes. For example, the algorithm can still identify a dog, whether it is in the center of the frame or at the left end of the frame.

See also size invariance and rotational invariance .

триграмма

#seq
#язык

An N-gram in which N=3.

истинный отрицательный (TN)

#fundamentals

Пример, в котором модель правильно предсказывает отрицательный класс . Например, модель делает, что конкретное сообщение электронной почты не является спамом , и это сообщение электронной почты на самом деле не спам .

истинный положительный (TP)

#fundamentals

Пример, в котором модель правильно предсказывает положительный класс . Например, модель делает, что конкретным сообщением электронной почты является спам, и это сообщение электронной почты действительно является спамом.

Истинная положительная скорость (TPR)

#fundamentals

Синоним для отзывов . То есть:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Истинная положительная скорость-ось Y в кривой ROC .

ты

неосведомленность (к чувствительному атрибуту)

#справедливость

Ситуация, в которой конфиденциальные атрибуты присутствуют, но не включены в обучающие данные. Поскольку конфиденциальные атрибуты часто коррелируют с другими атрибутами данных, модель, обученная без знания конфиденциального атрибута, все равно может оказывать несопоставимое влияние по отношению к этому атрибуту или нарушать другие ограничения справедливости .

недостаток

#fundamentals

Создание модели с плохой прогнозной способностью, потому что модель не полностью захватила сложность учебных данных. Многие проблемы могут вызвать недостаток, в том числе:

undersampling

Removing examples from the majority class in a class-imbalanced dataset in order to create a more balanced training set .

For example, consider a dataset in which the ratio of the majority class to the minority class is 20:1. To overcome this class imbalance, you could create a training set consisting of all of the minority class examples but only a tenth of the majority class examples, which would create a training-set class ratio of 2:1. Thanks to undersampling, this more balanced training set might produce a better model. Alternatively, this more balanced training set might contain insufficient examples to train an effective model.

Contrast with oversampling .

unidirectional

#язык

A system that only evaluates the text that precedes a target section of text. In contrast, a bidirectional system evaluates both the text that precedes and follows a target section of text. See bidirectional for more details.

unidirectional language model

#язык

A language model that bases its probabilities only on the tokens appearing before , not after , the target token(s). Contrast with bidirectional language model .

немеченые пример

#fundamentals

Пример, который содержит функции , но без метки . Например, в следующей таблице показаны три немеченые примеры из модели оценки дома, в каждом из которых есть три функции, но без значения дома:

Количество спален Количество ванных комнат Возраст дома
3 2 15
2 1 72
4 2 34

В контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .

В полупрофильном и неконтролируемом обучении немеченые примеры используются во время обучения.

Контрастные немеченые пример с маркированным примером .

Неконтролируемое машинное обучение

#кластеризация
#fundamentals

Обучение модели для поиска шаблонов в наборе данных, как правило, немеченым набором данных.

Наиболее распространенным использованием неконтролируемого машинного обучения является кластер данных в группы аналогичных примеров. Например, алгоритм машинного обучения неконтролируемого обучения может кластерировать песни на основе различных свойств музыки. Полученные кластеры могут стать введением в другие алгоритмы машинного обучения (например, в службу музыкальной рекомендации). Кластеризация может помочь, когда полезные этикетки редки или отсутствуют. Например, в таких областях, как противодействие и мошенничество, кластеры могут помочь людям лучше понять данные.

В отличие от контролируемого машинного обучения .

uplift modeling

A modeling technique, commonly used in marketing, that models the "causal effect" (also known as the "incremental impact") of a "treatment" on an "individual." Here are two examples:

  • Doctors might use uplift modeling to predict the mortality decrease (causal effect) of a medical procedure (treatment) depending on the age and medical history of a patient (individual).
  • Marketers might use uplift modeling to predict the increase in probability of a purchase (causal effect) due to an advertisement (treatment) on a person (individual).

Uplift modeling differs from classification or regression in that some labels (for example, half of the labels in binary treatments) are always missing in uplift modeling. For example, a patient can either receive or not receive a treatment; therefore, we can only observe whether the patient is going to heal or not heal in only one of these two situations (but never both). The main advantage of an uplift model is that it can generate predictions for the unobserved situation (the counterfactual) and use it to compute the causal effect.

upweighting

Applying a weight to the downsampled class equal to the factor by which you downsampled.

user matrix

#recsystems

In recommendation systems , an embedding vector generated by matrix factorization that holds latent signals about user preferences. Each row of the user matrix holds information about the relative strength of various latent signals for a single user. Например, рассмотрим систему рекомендаций фильма. In this system, the latent signals in the user matrix might represent each user's interest in particular genres, or might be harder-to-interpret signals that involve complex interactions across multiple factors.

The user matrix has a column for each latent feature and a row for each user. That is, the user matrix has the same number of rows as the target matrix that is being factorized. For example, given a movie recommendation system for 1,000,000 users, the user matrix will have 1,000,000 rows.

В

проверка

#основы

Первоначальная оценка качества модели. Валидация проверяет качество прогнозов модели в отношении набора валидации .

Поскольку набор проверки отличается от учебного набора , проверка помогает защитить от переосмысления .

Вы можете подумать о оценке модели с набором валидации как первого раунда тестирования и оценки модели с набором теста как второй раунд тестирования.

потеря проверки

#основы

Метрика, представляющая потерю модели при наборе проверки во время конкретной итерации обучения.

См. также кривую обобщения .

валидация набор

#fundamentals

Подмножество набора данных , которая выполняет начальную оценку по обученной модели . Как правило, вы оцениваете обученную модель по набору валидации несколько раз, прежде чем оценивать модель с набором тестирования .

Традиционно вы делите примеры в наборе данных на следующие три отделения подмножества:

В идеале каждый пример в наборе данных должен принадлежать только к одному из предыдущих подмножеств. Например, один пример не должен принадлежать как набору обучения, так и к набору валидации.

value imputation

The process of replacing a missing value with an acceptable substitute. When a value is missing, you can either discard the entire example or you can use value imputation to salvage the example.

For example, consider a dataset containing a temperature feature that is supposed to be recorded every hour. However, the temperature reading was unavailable for a particular hour. Here is a section of the dataset:

Timestamp Температура
1680561000 10
1680564600 12
1680568200 отсутствующий
1680571800 20
1680575400 21
1680579000 21

A system could either delete the missing example or impute the missing temperature as 12, 16, 18, or 20, depending on the imputation algorithm.

vanishing gradient problem

#seq

The tendency for the gradients of early hidden layers of some deep neural networks to become surprisingly flat (low). Increasingly lower gradients result in increasingly smaller changes to the weights on nodes in a deep neural network, leading to little or no learning. Models suffering from the vanishing gradient problem become difficult or impossible to train. Long Short-Term Memory cells address this issue.

Compare to exploding gradient problem .

variable importances

#df

A set of scores that indicates the relative importance of each feature to the model.

For example, consider a decision tree that estimates house prices. Suppose this decision tree uses three features: size, age, and style. If a set of variable importances for the three features are calculated to be {size=5.8, age=2.5, style=4.7}, then size is more important to the decision tree than age or style.

Different variable importance metrics exist, which can inform ML experts about different aspects of models.

variational autoencoder (VAE)

#язык

A type of autoencoder that leverages the discrepancy between inputs and outputs to generate modified versions of the inputs. Variational autoencoders are useful for generative AI .

VAEs are based on variational inference: a technique for estimating the parameters of a probability model.

вектор

Very overloaded term whose meaning varies across different mathematical and scientific fields. Within machine learning, a vector has two properties:

  • Data type: Vectors in machine learning usually hold floating-point numbers.
  • Number of elements: This is the vector's length or its dimension .

For example, consider a feature vector that holds eight floating-point numbers. This feature vector has a length or dimension of eight. Note that machine learning vectors often have a huge number of dimensions.

You can represent many different kinds of information as a vector. Например:

  • Any position on the surface of Earth can be represented as a 2-dimensional vector, where one dimension is the latitude and the other is the longitude.
  • The current prices of each of 500 stocks can be represented as a 500-dimensional vector.
  • A probability distribution over a finite number of classes can be represented as a vector. For example, a multiclass classification system that predicts one of three output colors (red, green, or yellow) could output the vector (0.3, 0.2, 0.5) to mean P[red]=0.3, P[green]=0.2, P[yellow]=0.5 .

Vectors can be concatenated; therefore, a variety of different media can be represented as a single vector. Some models operate directly on the concatenation of many one-hot encodings .

Specialized processors such as TPUs are optimized to perform mathematical operations on vectors.

A vector is a tensor of rank 1.

Вт

Wasserstein loss

One of the loss functions commonly used in generative adversarial networks , based on the earth mover's distance between the distribution of generated data and real data.

масса

#fundamentals

Значение, которое модель умножает на другое значение. Обучение - это процесс определения идеальных весов модели; Вывод - это процесс использования этих ученых весов для прогнозирования.

Weighted Alternating Least Squares (WALS)

#recsystems

An algorithm for minimizing the objective function during matrix factorization in recommendation systems , which allows a downweighting of the missing examples. WALS minimizes the weighted squared error between the original matrix and the reconstruction by alternating between fixing the row factorization and column factorization. Each of these optimizations can be solved by least squares convex optimization . For details, see the Recommendation Systems course .

взвешенная сумма

#fundamentals

Сумма всех соответствующих входных значений, умноженных на соответствующие веса. Например, предположим, что соответствующие входы состоят из следующего:

входное значение входной вес
2 -1,3
-1 0,6
3 0,4

Таким образом, взвешенная сумма равна:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Взвешенная сумма - это входной аргумент для функции активации .

wide model

A linear model that typically has many sparse input features . We refer to it as "wide" since such a model is a special type of neural network with a large number of inputs that connect directly to the output node. Wide models are often easier to debug and inspect than deep models . Although wide models cannot express nonlinearities through hidden layers , wide models can use transformations such as feature crossing and bucketization to model nonlinearities in different ways.

Contrast with deep model .

ширина

The number of neurons in a particular layer of a neural network .

мудрость толпы

#df

The idea that averaging the opinions or estimates of a large group of people ("the crowd") often produces surprisingly good results. For example, consider a game in which people guess the number of jelly beans packed into a large jar. Although most individual guesses will be inaccurate, the average of all the guesses has been empirically shown to be surprisingly close to the actual number of jelly beans in the jar.

Ensembles are a software analog of wisdom of the crowd. Even if individual models make wildly inaccurate predictions, averaging the predictions of many models often generates surprisingly good predictions. For example, although an individual decision tree might make poor predictions, a decision forest often makes very good predictions.

word embedding

#язык

Representing each word in a word set within an embedding vector ; that is, representing each word as a vector of floating-point values between 0.0 and 1.0. Words with similar meanings have more-similar representations than words with different meanings. For example, carrots , celery , and cucumbers would all have relatively similar representations, which would be very different from the representations of airplane , sunglasses , and toothpaste .

Х

XLA (Accelerated Linear Algebra)

An open-source machine learning compiler for GPUs, CPUs, and ML accelerators.

The XLA compiler takes models from popular ML frameworks such as PyTorch , TensorFlow , and JAX , and optimizes them for high-performance execution across different hardware platforms including GPUs, CPUs, and ML accelerators .

З

zero-shot learning

A type of machine learning training where the model infers a prediction for a task that it was not specifically already trained on. In other words, the model is given zero task-specific training examples but asked to do inference for that task.

zero-shot prompting

#язык
#генеративныйИИ

A prompt that does not provide an example of how you want the large language model to respond. Например:

Части одного подсказки Примечания
Какая официальная валюта указанной страны? Вопрос, на который вы хотите получить ответ от LLM.
Индия: Фактический запрос.

The large language model might respond with any of the following:

  • Рупия
  • индийская рупия
  • Indian rupee
  • The rupee
  • The Indian rupee

All of the answers are correct, though you might prefer a particular format.

Compare and contrast zero-shot prompting with the following terms:

Z-оценка нормализация

#fundamentals

Метод масштабирования , который заменяет необработанное значение функции со значением с плавающей точкой, представляющим количество стандартных отклонений от среднего значения этой функции. Например, рассмотрим функцию, среднее значение которого составляет 800, а стандартное отклонение которого составляет 100. В следующей таблице показано, как нормализация Z-показателя будет сопоставить необработанное значение с его Z-Score:

Сырая стоимость Z-Score
800 0
950 +1,5
575 -2,25

Затем модель машинного обучения тренируется на Z-оценках для этой функции, а не на необработанных значениях.