Эта страница содержит термины глоссария «Метрика». Все термины глоссария можно найти здесь .
А
точность
Количество правильных предсказаний классификации, делённое на общее количество предсказаний. То есть:
Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:
Бинарная классификация предусматривает специальные обозначения для различных категорий правильных и неправильных предсказаний . Таким образом, формула точности для бинарной классификации выглядит следующим образом:
где:
- TP — количество истинно положительных результатов (правильных предсказаний).
- TN — количество истинно отрицательных результатов (правильных предсказаний).
- FP — количество ложноположительных результатов (неверных предсказаний).
- FN — количество ложноотрицательных результатов (неверных предсказаний).
Сравните и сопоставьте точность с точностью и полнотой .
Для получения дополнительной информации см. раздел Классификация: точность, полнота, достоверность и связанные с ними показатели в ускоренном курсе по машинному обучению.
площадь под кривой PR
См. PR AUC (площадь под кривой PR) .
площадь под кривой ROC
См. AUC (площадь под ROC-кривой) .
AUC (площадь под ROC-кривой)
Число от 0,0 до 1,0, представляющее способность модели бинарной классификации разделять положительные и отрицательные классы . Чем ближе значение AUC к 1,0, тем лучше модель способна разделять классы.
Например, на следующем рисунке показана модель классификации , которая идеально разделяет положительные классы (зелёные овалы) и отрицательные классы (фиолетовые прямоугольники). Эта нереалистично идеальная модель имеет AUC, равную 1,0:
Напротив, на следующем рисунке показаны результаты для модели классификации , генерирующей случайные результаты. Эта модель имеет AUC 0,5:
Да, предыдущая модель имела AUC 0,5, а не 0,0.
Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель в некоторой степени разделяет положительные и отрицательные результаты, поэтому её AUC находится где-то между 0,5 и 1,0:
AUC игнорирует любое заданное вами значение порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.
Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.
средняя точность при k
Метрика для суммирования эффективности модели по одному запросу, генерирующая ранжированные результаты, например, нумерованный список рекомендуемых книг. Средняя точность при k — это, по сути, среднее значение точности при k для каждого релевантного результата. Таким образом, формула для средней точности при k выглядит следующим образом:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
где:
- \(n\) — это количество соответствующих элементов в списке.
Сравните с отзывом в точке k .
Б
базовый уровень
Модель, используемая в качестве точки отсчёта для сравнения эффективности другой модели (обычно более сложной). Например, модель логистической регрессии может служить хорошей основой для глубокой модели .
Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно оценить минимальную ожидаемую производительность, которую должна достичь новая модель, чтобы она была полезной.
С
расходы
Синоним слова «потеря» .
контрфактуальная справедливость
Метрика справедливости , которая проверяет, даёт ли модель классификации тот же результат для одного человека, что и для другого, идентичного первому, за исключением одного или нескольких чувствительных атрибутов . Оценка модели классификации на контрфактическую справедливость — один из методов выявления потенциальных источников смещения в модели.
Более подробную информацию можно найти в одном из следующих источников:
- Справедливость: контрфактуальная справедливость в ускоренном курсе по машинному обучению.
- Когда миры сталкиваются: интеграция различных контрфактуальных предположений в справедливость
кросс-энтропия
Обобщение логарифмической модели потерь для задач многоклассовой классификации . Перекрёстная энтропия количественно определяет разницу между двумя распределениями вероятностей. См. также «perplexity» (загадочность) .
кумулятивная функция распределения (CDF)
Функция, определяющая частоту выборок, меньших или равных целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. Функция распределения (CDF) показывает, что примерно 50% выборок должны быть меньше или равны среднему значению, а примерно 84% выборок должны быть меньше или равны одному стандартному отклонению от среднего значения.
Д
демографический паритет
Метрика справедливости , которая выполняется, если результаты классификации модели не зависят от заданного чувствительного атрибута .
Например, если и лилипуты, и бробдингнегцы подают заявления в университет Глаббдабдриб, демографический паритет достигается, если процент принятых лилипутов совпадает с процентом принятых бробдингнегцев, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.
Сравните с уравненными шансами и равенством возможностей , которые допускают зависимость результатов классификации в совокупности от чувствительных атрибутов, но не допускают зависимости результатов классификации для определённых меток истинности от чувствительных атрибутов. Визуализацию, демонстрирующую компромиссы при оптимизации для достижения демографического паритета, см. в разделе «Борьба с дискриминацией с помощью более интеллектуального машинного обучения».
Для получения дополнительной информации см. раздел «Справедливость: демографический паритет» в учебном курсе по машинному обучению.
Э
расстояние землеройной машины (EMD)
Мера относительного сходства двух распределений . Чем меньше расстояние между землеройными машинами, тем больше сходства распределений.
расстояние редактирования
Мера схожести двух текстовых строк. В машинном обучении расстояние редактирования полезно по следующим причинам:
- Расстояние редактирования легко вычислить.
- Расстояние редактирования позволяет сравнивать две строки, заведомо похожие друг на друга.
- Расстояние редактирования может определить степень, в которой различные строки похожи на заданную строку.
Существует несколько определений расстояния редактирования, каждое из которых использует различные строковые операции. См. пример расстояния Левенштейна .
эмпирическая кумулятивная функция распределения (eCDF или EDF)
Кумулятивная функция распределения , основанная на эмпирических измерениях реального набора данных. Значение функции в любой точке оси X представляет собой долю наблюдений в наборе данных, которые меньше или равны заданному значению.
энтропия
В теории информации — описание непредсказуемости распределения вероятностей. В качестве альтернативы, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.
Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
где:
- H — энтропия.
- p — доля примеров «1».
- q — доля примеров, равных нулю. Обратите внимание, что q = (1 - p).
- Логарифм обычно равен логарифму 2. В данном случае единицей измерения энтропии является бит.
Например, предположим следующее:
- 100 примеров содержат значение «1»
- 300 примеров содержат значение «0»
Следовательно, значение энтропии равно:
- р = 0,25
- q = 0,75
- H = (-0,25)log 2 (0,25) - (0,75)log 2 (0,75) = 0,81 бита на пример
Идеально сбалансированный набор (например, 200 нулей и 200 единиц) будет иметь энтропию 1,0 бит на экземпляр. По мере того, как набор становится более несбалансированным , его энтропия стремится к 0,0.
В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия в процессе роста дерева решений классификации.
Сравните энтропию с:
- примесь джини
- функция потерь кросс-энтропии
Энтропию часто называют энтропией Шеннона .
Дополнительную информацию см. в разделе Точный разделитель для бинарной классификации с числовыми признаками в курсе «Леса решений».
равенство возможностей
Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель предсказывает желаемый результат для всех значений чувствительного атрибута . Другими словами, если желаемым результатом модели является положительный класс , целью будет достижение одинаковой истинной положительной частоты для всех групп.
Равенство возможностей связано с уравниванием шансов , что требует, чтобы как истинно положительные показатели, так и ложноположительные показатели были одинаковыми для всех групп.
Предположим, что Университет Глаббдабдриб принимает как лилипутов, так и бробдингнегцев на сложную программу обучения математике. Средние школы лилипутов предлагают насыщенную программу занятий по математике, и подавляющее большинство учащихся имеют право поступить в университет. В средних школах бробдингнегцев математика вообще не преподаётся, и в результате гораздо меньше их учеников имеют право поступить. Равенство возможностей для предпочтительного статуса «зачислен» по национальности (лилипут или бробдингнегец) соблюдается, если учащиеся, соответствующие требованиям, имеют одинаковую вероятность быть зачисленными независимо от того, являются ли они лилипутами или бробдингнегцами.
Например, предположим, что 100 лилипутов и 100 бробдингнегцев подают заявления в университет Глаббдабдриб, и решения о приеме принимаются следующим образом:
Таблица 1. Кандидаты-лилипуты (90% имеют квалификацию)
Квалифицированный | Неквалифицированный | |
---|---|---|
Допущенный | 45 | 3 |
Отклоненный | 45 | 7 |
Общий | 90 | 10 |
Процент принятых квалифицированных студентов: 45/90 = 50% Процент отклоненных неквалифицированных студентов: 7/10 = 70% Общий процент принятых студентов-лилипутов: (45+3)/100 = 48% |
Таблица 2. Кандидаты из Бробдингнега (10% соответствуют требованиям):
Квалифицированный | Неквалифицированный | |
---|---|---|
Допущенный | 5 | 9 |
Отклоненный | 5 | 81 |
Общий | 10 | 90 |
Процент принятых квалифицированных студентов: 5/10 = 50% Процент отклоненных неквалифицированных студентов: 81/90 = 90% Общий процент принятых студентов Бробдингнега: (5+9)/100 = 14% |
Приведенные выше примеры подтверждают равенство возможностей для приема квалифицированных студентов, поскольку как квалифицированные лилипуты, так и бробдингнегцы имеют 50% шанс быть принятыми.
Хотя равенство возможностей соблюдается, следующие два показателя справедливости не соблюдаются:
- Демографический паритет : лилипуты и бробдингнегцы поступают в университет с разной частотой: из числа лилипутов поступает 48%, а из числа бробдингнегцев — только 14%.
- Уравненные шансы : хотя квалифицированные лилипуты и бробдингнегцы имеют равные шансы на поступление, дополнительное ограничение, согласно которому неквалифицированные лилипуты и бробдингнегцы имеют равные шансы на отчисление, не выполняется. У неквалифицированных лилипутов процент отчисления составляет 70%, тогда как у неквалифицированных бробдингнегцев — 90%.
Для получения дополнительной информации см. статью Справедливость: равенство возможностей в ускоренном курсе по машинному обучению.
уравняли шансы
Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель предсказывает результаты для всех значений чувствительного атрибута как в положительном , так и в отрицательном классе , а не только в одном из них. Другими словами, как истинно положительные , так и ложноотрицательные результаты должны быть одинаковыми для всех групп.
Уравненные шансы связаны с равенством возможностей , которое фокусируется только на частоте ошибок для одного класса (положительного или отрицательного).
Например, предположим, что Университет Глаббдабдриб принимает как лилипутов, так и бробдингнегцев на сложную программу по математике. Средние школы лилипутов предлагают насыщенную программу по математике, и подавляющее большинство учащихся имеют право поступить в университет. В средних школах бробдингнегцев математика вообще не преподаётся, и, как следствие, гораздо меньше их учеников имеют право поступить. Уравнение шансов выполняется при условии, что независимо от того, является ли абитуриент лилипутом или бробдингнегцем, если он имеет право, он с равной вероятностью будет зачислен в программу, а если нет, то с равной вероятностью будет отчислен.
Предположим, что 100 лилипутов и 100 бробдингнегцев подают заявления в университет Глаббдабдриб, и решения о приеме принимаются следующим образом:
Таблица 3. Кандидаты-лилипуты (90% имеют квалификацию)
Квалифицированный | Неквалифицированный | |
---|---|---|
Допущенный | 45 | 2 |
Отклоненный | 45 | 8 |
Общий | 90 | 10 |
Процент принятых квалифицированных студентов: 45/90 = 50% Процент отклоненных неквалифицированных студентов: 8/10 = 80% Общий процент принятых студентов-лилипутов: (45+2)/100 = 47% |
Таблица 4. Кандидаты из Бробдингнега (10% соответствуют требованиям):
Квалифицированный | Неквалифицированный | |
---|---|---|
Допущенный | 5 | 18 |
Отклоненный | 5 | 72 |
Общий | 10 | 90 |
Процент принятых квалифицированных студентов: 5/10 = 50% Процент отклоненных неквалифицированных студентов: 72/90 = 80% Общий процент принятых студентов Бробдингнега: (5+18)/100 = 23% |
Уравнивание шансов выполняется, поскольку квалифицированные лилипуты и бробдингнегцы имеют 50% шанс быть принятыми, а неквалифицированные лилипуты и бробдингнегцы имеют 80% шанс быть отвергнутыми.
Выровненные шансы формально определены в «Равенстве возможностей в контролируемом обучении» следующим образом: «предиктор Ŷ удовлетворяет выровненным шансам относительно защищенного атрибута A и результата Y, если Ŷ и A независимы и зависят от Y».
оценки
В основном используется как сокращение для обозначения оценок LLM . В более широком смысле, evals — это сокращение для любой формы оценки .
оценка
Процесс измерения качества модели или сравнения различных моделей друг с другом.
Чтобы оценить модель машинного обучения с учителем , её обычно сравнивают с проверочным и тестовым наборами . Оценка степени магистра права (LLM) обычно включает более широкие оценки качества и безопасности.
Ф
Ф 1
«Свёрнутая» бинарная метрика классификации , основанная как на точности , так и на полноте . Вот формула:
метрика справедливости
Математическое определение «справедливости», поддающееся измерению. Некоторые часто используемые показатели справедливости включают:
Многие показатели справедливости являются взаимоисключающими; см. несовместимость показателей справедливости .
ложноотрицательный результат (ЛО)
Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (отрицательный класс), но на самом деле это сообщение электронной почты является спамом .
ложноотрицательный показатель
Доля фактических положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула рассчитывает долю ложноотрицательных результатов:
Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».
ложноположительный результат (ЛП)
Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты спамом не является.
Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».
частота ложноположительных результатов (FPR)
Доля фактических отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает долю ложноположительных результатов:
Показатель ложноположительных результатов — это ось x на ROC-кривой .
Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.
важность функций
Синоним переменных важностей .
модель фундамента
Очень большая предобученная модель, обученная на огромном и разнообразном обучающем наборе . Базовая модель может выполнять оба следующих действия:
- Хорошо реагируют на широкий спектр запросов.
- Служить базовой моделью для дополнительной тонкой настройки или других настроек.
Другими словами, базовая модель уже весьма функциональна в общем смысле, но ее можно дополнительно настроить, чтобы она стала еще более полезной для конкретной задачи.
доля успехов
Метрика для оценки сгенерированного текста модели машинного обучения. Доля успешных результатов — это количество «успешных» сгенерированных текстовых результатов, делённое на общее количество сгенерированных текстовых результатов. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых были успешными, то доля успешных результатов составит 50%.
Хотя доля успеха широко используется в статистике, в машинном обучении эта метрика в первую очередь полезна для измерения проверяемых задач, таких как генерация кода или решение математических задач.
Г
примесь джини
Метрика, аналогичная энтропии . Разделители используют значения, полученные либо из коэффициента Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации определяется энтропией. Общепринятого эквивалентного термина для метрики, полученной из коэффициента Джини, не существует; однако эта безымянная метрика так же важна, как и прирост информации.
Примесь Джини также называется индексом Джини или просто Джини .
ЧАС
потеря шарнира
Семейство функций потерь для классификации , предназначенное для нахождения границы решения как можно дальше от каждого обучающего примера, тем самым максимизируя разницу между примерами и границей. KSVM используют функцию потери по оси (или родственную функцию, например, квадратичную функцию потери по оси). Для бинарной классификации функция потери по оси определяется следующим образом:
где y — истинная метка, либо -1, либо +1, а y' — необработанный вывод модели классификации :
Следовательно, график потери шарнира в зависимости от (y * y') выглядит следующим образом:
я
несовместимость показателей справедливости
Идея о том, что некоторые понятия справедливости несовместимы и не могут быть удовлетворены одновременно. В результате не существует единой универсальной метрики для количественной оценки справедливости, применимой ко всем задачам машинного обучения.
Хотя это может показаться обескураживающим, несовместимость метрик справедливости не означает, что усилия по обеспечению справедливости бесполезны. Напротив, это предполагает, что справедливость должна определяться в контексте конкретной проблемы машинного обучения с целью предотвращения вреда, характерного для конкретных вариантов её использования.
Более подробное обсуждение несовместимости показателей справедливости см. в разделе «О (не)возможности справедливости» .
индивидуальная справедливость
Метрика справедливости, которая проверяет, классифицируются ли похожие люди одинаково. Например, Бробдингнегская академия может стремиться к обеспечению индивидуальной справедливости, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов будут иметь равные шансы на поступление.
Обратите внимание, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае это оценки и результаты тестов), и вы рискуете столкнуться с новыми проблемами справедливости, если ваша метрика сходства не учитывает важную информацию (например, строгость учебной программы учащегося).
Более подробное обсуждение индивидуальной справедливости см. в статье «Справедливость через осознанность» .
получение информации
В лесах решений — разность между энтропией узла и взвешенной (по числу примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.
Например, рассмотрим следующие значения энтропии:
- Энтропия родительского узла = 0,6
- Энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
- Энтропия другого дочернего узла с 24 соответствующими примерами = 0,1
Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Следовательно:
- Сумма взвешенной энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Итак, прирост информации составляет:
- прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
- прирост информации = 0,6 - 0,14 = 0,46
Большинство разделителей стремятся создать условия , которые максимизируют получение информации.
межэкспертное соглашение
Показатель того, насколько часто оценщики-люди соглашаются друг с другом при выполнении задания. Если оценщики расходятся во мнениях, может потребоваться улучшение инструкций к заданию. Иногда также называется межаннотаторским согласием или межоценочной надёжностью . См. также каппу Коэна , которая является одним из самых популярных показателей межоценочного согласия.
Для получения дополнительной информации см. раздел Категориальные данные: распространенные проблемы в ускоренном курсе по машинному обучению.
Л
Потеря L 1
Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями на этикетке и значениями, предсказанными моделью . Например, вот расчёт потери L1 для партии из пяти образцов :
Фактическое значение примера | Прогнозируемое значение модели | Абсолютное значение дельты |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = потеря L1 |
Потеря L 1 менее чувствительна к выбросам , чем потеря L 2 .
Средняя абсолютная ошибка — это средняя потеря L1 на пример.
Для получения дополнительной информации см. Линейная регрессия: экспресс-курс по потерям в машинном обучении.
потеря L 2
Функция потерь , которая вычисляет квадрат разницы между фактическими значениями этикетки и значениями, предсказанными моделью . Например, вот расчёт потери L2 для партии из пяти образцов :
Фактическое значение примера | Прогнозируемое значение модели | Квадрат дельты |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = потеря L 2 |
Из-за возведения в квадрат, потери L2 усиливают влияние выбросов . То есть, потери L2 сильнее реагируют на неверные прогнозы, чем потери L1 . Например, потери L1 для предыдущей партии составили бы 8, а не 16. Обратите внимание, что один выброс составляет 9 из 16.
В моделях регрессии в качестве функции потерь обычно используется потеря L2 .
Среднеквадратическая ошибка — это средний убыток L2 для каждого примера. Квадратичный убыток — это другое название убытка L2 .
Для получения дополнительной информации см. раздел Логистическая регрессия: потери и регуляризация в ускоренном курсе по машинному обучению.
Оценки LLM (evals)
Набор метрик и контрольных показателей для оценки эффективности больших языковых моделей (LLM). На высоком уровне оценки LLM:
- Помогите исследователям определить области, в которых необходимо улучшить работу LLM.
- Полезны для сравнения различных программ LLM и определения лучшей программы LLM для конкретной задачи.
- Помогите обеспечить безопасность и этичность использования программ LLM.
Для получения дополнительной информации см. Большие языковые модели (LLM) в Ускоренном курсе по машинному обучению.
потеря
В процессе обучения контролируемой модели мера того, насколько далеко предсказание модели от ее метки .
Функция потерь вычисляет потери.
Для получения дополнительной информации см. Линейная регрессия: экспресс-курс по потерям в машинном обучении.
функция потерь
Во время обучения или тестирования — математическая функция, которая вычисляет потери для набора примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.
Целью обучения обычно является минимизация потерь, возвращаемых функцией потерь.
Существует множество различных видов функций потерь. Выберите подходящую функцию потерь для типа модели, которую вы строите. Например:
- Потеря L 2 (или средняя квадратическая ошибка ) — это функция потерь для линейной регрессии .
- Log Loss — это функция потерь для логистической регрессии .
М
Средняя абсолютная ошибка (MAE)
Средние потери на пример при использовании потерь L 1. Рассчитайте среднюю абсолютную погрешность следующим образом:
- Рассчитайте потери L 1 для партии.
- Разделите потерю L 1 на количество примеров в партии.
Например, рассмотрим расчет убытка L 1 для следующей партии из пяти примеров:
Фактическое значение примера | Прогнозируемое значение модели | Убыток (разница между фактическим и прогнозируемым) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = потеря L1 |
Итак, потеря L1 равна 8, а количество примеров равно 5. Следовательно, средняя абсолютная ошибка равна:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Сравните среднюю абсолютную ошибку со средней квадратической ошибкой и среднеквадратической ошибкой .
средняя точность при k (mAP@k)
Статистическое среднее значение всех средних значений точности при k в наборе данных проверки. Одним из применений средней точности при k является оценка качества рекомендаций, генерируемых рекомендательной системой .
Хотя словосочетание «среднее среднее» звучит избыточно, название метрики вполне уместно. Ведь эта метрика вычисляет среднее значение точности множественных средних при k значениях.
Среднеквадратическая ошибка (MSE)
Средний убыток в каждом примере при использовании потерь L2 . Рассчитайте среднюю квадратическую ошибку следующим образом:
- Рассчитайте потери L2 для партии.
- Разделите потерю L2 на количество примеров в партии.
Например, рассмотрим убыток по следующей партии из пяти образцов:
Фактическое значение | Прогноз модели | Потеря | Квадратный убыток |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = потеря L 2 |
Таким образом, среднеквадратическая ошибка равна:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Среднеквадратическая ошибка — популярный оптимизатор обучения, особенно для линейной регрессии .
Сравните среднюю квадратическую ошибку со средней абсолютной ошибкой и среднеквадратической ошибкой .
TensorFlow Playground использует среднеквадратичную ошибку для расчета значений потерь.
метрика
Статистика, которая вас волнует.
Цель — это показатель, который система машинного обучения пытается оптимизировать.
API метрик (tf.metrics)
API TensorFlow для оценки моделей. Например, tf.metrics.accuracy
определяет, как часто прогнозы модели соответствуют меткам.
минимаксные потери
Функция потерь для генеративно-состязательных сетей , основанная на перекрестной энтропии между распределением сгенерированных и реальных данных.
Минимаксные потери используются в первой статье для описания генеративно-состязательных сетей.
Дополнительную информацию см. в разделе «Функции потерь» в курсе «Генераторно-состязательные сети».
мощность модели
Сложность проблем, которые может изучить модель. Чем сложнее проблемы, которые может изучить модель, тем выше ее емкость. Емкость модели обычно увеличивается с увеличением количества параметров модели. Формальное определение емкости модели классификации см. в разделе «Измерение VC» .
Н
отрицательный класс
В бинарной классификации один класс называется положительным , а другой — отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:
- Отрицательный класс медицинского теста может быть «не опухоль».
- Отрицательным классом в модели классификации электронной почты может быть «не спам».
Контраст с позитивным классом .
О
цель
Метрика , которую ваш алгоритм пытается оптимизировать.
целевая функция
Математическая формула или показатель , который призвана оптимизировать модель. Например, целевой функцией для линейной регрессии обычно является среднеквадратичная потеря . Следовательно, при обучении модели линейной регрессии цель обучения — минимизировать среднеквадратическую потерю.
В некоторых случаях целью является максимизация целевой функции. Например, если целевой функцией является точность, цель состоит в том, чтобы максимизировать точность.
См. также потерю .
П
пройти через k (pass@k)
Метрика для определения качества кода (например, Python), который генерирует большая языковая модель . Точнее говоря, проход по k говорит вам о вероятности того, что хотя бы один сгенерированный блок кода из k сгенерированных блоков кода пройдет все свои модульные тесты.
Большие языковые модели часто с трудом генерируют хороший код для решения сложных задач программирования. Инженеры-программисты адаптируются к этой проблеме, побуждая большую языковую модель генерировать несколько ( k ) решений для одной и той же проблемы. Затем инженеры-программисты тестируют каждое решение с помощью модульных тестов. Расчет прохода при k зависит от результатов модульных тестов:
- Если одно или несколько из этих решений проходят модульный тест, то LLM успешно справляется с задачей генерации кода.
- Если ни одно из решений не проходит модульный тест, то LLM не справляется с задачей генерации кода.
Формула прохода по k выглядит следующим образом:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
В целом, более высокие значения k обеспечивают более высокую проходимость при k баллах; однако более высокие значения k требуют более крупных языковых моделей и ресурсов модульного тестирования.
производительность
Перегруженный термин со следующими значениями:
- Стандартное значение в разработке программного обеспечения. А именно: насколько быстро (или эффективно) работает эта программа?
- Значение машинного обучения. Здесь производительность отвечает на следующий вопрос: насколько правильна эта модель ? То есть, насколько хороши предсказания модели?
permutation variable importances
Тип важности переменной , которая оценивает увеличение ошибки прогнозирования модели после перестановки значений признака. Важность переменной перестановки — это метрика, независимая от модели.
недоумение
Один из показателей того, насколько хорошо модель выполняет свою задачу. Например, предположим, что ваша задача — прочитать первые несколько букв слова, которое пользователь набирает на клавиатуре телефона, и предложить список возможных слов-дополнений. Недоумение P для этой задачи — это примерно количество предположений, которые вам нужно предложить, чтобы ваш список содержал фактическое слово, которое пытается ввести пользователь.
Растерянность связана с перекрестной энтропией следующим образом:
позитивный класс
Класс, для которого вы тестируете.
Например, положительным классом в модели рака может быть «опухоль». Положительным классом в модели классификации электронной почты может быть «спам».
Сравните с отрицательным классом .
PR AUC (площадь под кривой PR)
Площадь под интерполированной кривой точности-напоминаемости , полученной путем построения точек (напоминаемости, точности) для различных значений порога классификации .
точность
Метрика для моделей классификации , отвечающая на следующий вопрос:
Когда модель предсказала положительный класс , какой процент предсказаний оказался верным?
Вот формула:
где:
- истинно положительный результат означает, что модель правильно предсказала положительный класс.
- ложное срабатывание означает, что модель ошибочно предсказала положительный класс.
Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных предсказаний:
- 150 из них были настоящими положительными.
- 50 оказались ложноположительными.
В этом случае:
Сравните с точностью и отзывом .
Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.
точность при k (precision@k)
Метрика для оценки ранжированного (упорядоченного) списка элементов. Точность в k определяет долю первых k элементов в этом списке, которые являются «релевантными». То есть:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью расчета.
Релевантность часто бывает субъективной; даже эксперты -оценщики часто расходятся во мнениях относительно того, какие элементы являются релевантными.
Сравните с:
кривая точного отзыва
Кривая точности и полноты при различных порогах классификации .
смещение прогноза
Значение, указывающее, насколько далеко среднее значение прогнозов отличается от среднего значения меток в наборе данных.
Не путать с термином предвзятости в моделях машинного обучения или с предвзятостью в вопросах этики и справедливости .
прогнозируемая четность
Метрика справедливости , которая проверяет, эквивалентны ли для данной модели классификации уровни точности для рассматриваемых подгрупп.
Например, модель, предсказывающая поступление в колледж, будет удовлетворять прогнозному паритету национальности, если ее уровень точности одинаков для лилипутов и бробдингнегов.
Прогнозируемый паритет иногда также называют прогнозирующим паритетом ставок .
См. «Объяснение определений справедливости» (раздел 3.2.1) для более подробного обсуждения прогнозируемой четности.
прогнозируемый паритет ставок
Другое название прогнозирующей четности .
функция плотности вероятности
Функция, которая определяет частоту выборок данных, имеющих точно определенное значение. Если значения набора данных представляют собой непрерывные числа с плавающей запятой, точные совпадения встречаются редко. Однако интегрирование функции плотности вероятности от значения x
до значения y
дает ожидаемую частоту выборок данных между x
и y
.
Например, рассмотрим нормальное распределение, имеющее среднее значение 200 и стандартное отклонение 30. Чтобы определить ожидаемую частоту выборок данных, попадающих в диапазон от 211,4 до 218,7, вы можете проинтегрировать функцию плотности вероятности для нормального распределения от 211,4 до 218,7.
Р
отзывать
Метрика для моделей классификации , отвечающая на следующий вопрос:
Когда основной истиной был положительный класс , какой процент прогнозов модель правильно определила как положительный класс?
Вот формула:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
где:
- истинно положительный результат означает, что модель правильно предсказала положительный класс.
- ложноотрицательный означает, что модель ошибочно предсказала отрицательный класс .
Например, предположим, что ваша модель сделала 200 прогнозов на примерах, для которых основная истина была положительным классом. Из этих 200 предсказаний:
- 180 оказались настоящими положительными.
- 20 оказались ложноотрицательными.
В этом случае:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и соответствующие показатели» .
отзыв в k (recall@k)
Метрика для оценки систем, которые выводят ранжированный (упорядоченный) список элементов. Напомним, что k определяет долю релевантных элементов в первых k элементах этого списка из общего количества возвращенных релевантных элементов.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
Сравните с точностью в k .
Кривая ROC (рабочая характеристика приемника)
График зависимости истинно положительного результата от ложноположительного для различных порогов классификации в бинарной классификации.
Форма кривой ROC предполагает способность модели бинарной классификации отделять положительные классы от отрицательных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:
Кривая ROC для предыдущей модели выглядит следующим образом:
Напротив, на следующей иллюстрации показаны необработанные значения логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:
Кривая ROC для этой модели выглядит следующим образом:
Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не идеально. Итак, типичная кривая ROC находится где-то между двумя крайностями:
Точка на кривой ROC, ближайшая к (0,0,1,0), теоретически определяет идеальный порог классификации. Однако на выбор идеального порога классификации влияют несколько других проблем реального мира. Например, возможно, ложноотрицательные результаты причиняют гораздо больше боли, чем ложноположительные.
Числовая метрика, называемая AUC , суммирует кривую ROC в одно значение с плавающей запятой.
Среднеквадратическая ошибка (RMSE)
Квадратный корень из среднеквадратической ошибки .
ROUGE (Дублер, ориентированный на отзыв, для оценки Gisting)
Семейство метрик, которые оценивают модели автоматического суммирования и машинного перевода . Метрики ROUGE определяют степень, в которой ссылочный текст перекрывает текст, сгенерированный моделью ML. Каждый член семейства ROUGE измеряет перекрытие по-своему. Более высокие баллы ROUGE указывают на большее сходство между текстом ссылки и сгенерированным текстом, чем более низкие баллы ROUGE.
Каждый член семейства ROUGE обычно генерирует следующие показатели:
- Точность
- Отзывать
- Ф 1
Подробности и примеры см.:
РУЖ-Л
Член семейства ROUGE сосредоточился на длине самой длинной общей подпоследовательности в справочном и сгенерированном тексте . Следующие формулы рассчитывают полноту и точность ROUGE-L:
Затем вы можете использовать F 1 , чтобы свести отзыв ROUGE-L и точность ROUGE-L в единую метрику:
ROUGE-L игнорирует любые новые строки в справочном и сгенерированном тексте, поэтому самая длинная общая подпоследовательность может пересекать несколько предложений. Когда справочный текст и сгенерированный текст состоят из нескольких предложений, вариант ROUGE-L, называемый ROUGE-Lsum, обычно является лучшим показателем. ROUGE-Lsum определяет самую длинную общую подпоследовательность для каждого предложения в отрывке, а затем вычисляет среднее значение этих самых длинных общих подпоследовательностей.
РУЖ-Н
Набор метрик в семействе ROUGE , который сравнивает общие N-граммы определенного размера в справочном и сгенерированном тексте . Например:
- ROUGE-1 измеряет количество общих токенов в справочном и сгенерированном тексте.
- ROUGE-2 измеряет количество общих биграмм (2 грамма) в справочном и сгенерированном тексте.
- ROUGE-3 измеряет количество общих триграмм (3 грамма) в справочном и сгенерированном тексте.
Вы можете использовать следующие формулы для расчета отзыва ROUGE-N и точности ROUGE-N для любого члена семейства ROUGE-N:
Затем вы можете использовать F 1 , чтобы свести отзыв ROUGE-N и точность ROUGE-N в единую метрику:
РУЖ-С
Простая форма ROUGE-N , позволяющая сопоставлять пропуски грамм . То есть ROUGE-N считает только N-граммы , которые точно совпадают, но ROUGE-S также считает N-граммы, разделенные одним или несколькими словами. Например, рассмотрим следующее:
- текст ссылки : Белые облака
- сгенерированный текст : Белые клубящиеся облака.
При расчете ROUGE-N 2-граммовые белые облака не соответствуют белым вздымающимся облакам . Однако при расчете ROUGE-S Белые облака соответствуют Белым вздымающимся облакам .
R-квадрат
Метрика регрессии , показывающая, насколько сильно изменение метки связано с отдельным признаком или набором признаков. R-квадрат — это значение от 0 до 1, которое можно интерпретировать следующим образом:
- R-квадрат, равный 0, означает, что ни одно из изменений метки не связано с набором функций.
- R-квадрат, равный 1, означает, что все изменения метки обусловлены набором функций.
- R-квадрат от 0 до 1 указывает, в какой степени можно предсказать изменение метки на основе конкретного признака или набора признаков. Например, R-квадрат, равный 0,10, означает, что 10 процентов отклонений в метке обусловлен набором функций, R-квадрат, равный 0,20, означает, что 20 процентов обусловлены набором функций, и так далее.
R-квадрат — это квадрат коэффициента корреляции Пирсона между значениями, предсказанными моделью, и истинными значениями .
С
подсчет очков
Часть системы рекомендаций , которая обеспечивает ценность или рейтинг для каждого элемента, созданного на этапе генерации кандидатов .
мера сходства
В алгоритмах кластеризации - метрика, используемая для определения того, насколько похожи (насколько похожи) любые два примера.
редкость
Количество элементов, для которых установлено значение ноль (или null) в векторе или матрице, деленное на общее количество записей в этом векторе или матрице. Например, рассмотрим матрицу из 100 элементов, в которой 98 ячеек содержат ноль. Расчет разреженности выглядит следующим образом:
Разреженность признаков относится к разреженности вектора признаков; Разреженность модели относится к разреженности весов модели.
потеря шарнира в квадрате
Квадрат шарнирных потерь . Квадратная потеря шарнира наказывает выбросы более жестко, чем обычная потеря шарнира.
квадрат убытка
Синоним потери L2 .
Т
потеря теста
Метрика , отражающая потери модели по сравнению с тестовым набором . При построении модели вы обычно пытаетесь минимизировать потери при тестировании. Это связано с тем, что низкие потери при тестировании являются более сильным сигналом качества, чем низкие потери при обучении или низкие потери при проверке .
Большой разрыв между потерей теста и потерей обучения или потерей проверки иногда говорит о том, что вам нужно увеличить уровень регуляризации .
высшая точность
Процент случаев, когда «целевой ярлык» появляется в первых k позициях созданных списков. Списки могут представлять собой персонализированные рекомендации или список элементов, заказанных softmax .
Точность Top-k также известна как точность при k .
токсичность
Степень, в которой контент является оскорбительным, угрожающим или оскорбительным. Многие модели машинного обучения могут выявлять и измерять токсичность. Большинство этих моделей определяют токсичность по нескольким параметрам, таким как уровень ненормативной лексики и уровень угрожающей лексики.
потеря тренировки
Метрика , отражающая потери модели во время определенной итерации обучения. Например, предположим, что функция потерь — это среднеквадратическая ошибка . Возможно, потеря обучения (среднеквадратическая ошибка) для 10-й итерации составит 2,2, а потеря обучения для 100-й итерации составит 1,9.
Кривая потерь отображает потери при обучении в зависимости от количества итераций. Кривая потерь дает следующие подсказки по поводу обучения:
- Наклон вниз означает, что модель улучшается.
- Наклон вверх означает, что модель становится хуже.
- Плоский наклон означает, что модель достигла сходимости .
Например, следующая несколько идеализированная кривая потерь показывает:
- Крутой наклон вниз во время начальных итераций, что предполагает быстрое улучшение модели.
- Постепенно выравнивающийся (но все же нисходящий) наклон почти до конца обучения, что подразумевает дальнейшее улучшение модели несколько более медленными темпами, чем во время начальных итераций.
- Плоский наклон к концу тренировки, что предполагает сближение.
Хотя потеря обучения важна, см. также обобщение .
истинно отрицательный (TN)
Пример, в котором модель правильно предсказывает отрицательный класс . Например, модель предполагает, что конкретное сообщение электронной почты не является спамом и что это сообщение электронной почты действительно не является спамом .
истинно положительный (TP)
Пример, в котором модель правильно предсказывает положительный класс . Например, модель предполагает, что конкретное сообщение электронной почты является спамом, и это сообщение действительно является спамом.
истинно положительный уровень (TPR)
Синоним слова отзыв . То есть:
Истинно положительная ставка — это ось Y на кривой ROC .
В
потеря проверки
Метрика , представляющая потери модели в проверочном наборе во время определенной итерации обучения.
См. также кривую обобщения .
переменные значения
Набор оценок, указывающий относительную важность каждой функции для модели.
Например, рассмотрим дерево решений , которое оценивает цены на жилье. Предположим, что в этом дереве решений используются три характеристики: размер, возраст и стиль. Если набор важностей переменных для трех признаков рассчитан как {size=5,8, age=2,5, style=4,7}, то размер более важен для дерева решений, чем возраст или стиль.
Существуют различные метрики важности переменных, которые могут информировать экспертов по машинному обучению о различных аспектах моделей.
В
Потеря Вассерштейна
Одна из функций потерь, обычно используемых в генеративно-состязательных сетях , основанная на расстоянии землеройного машины между распределением сгенерированных и реальных данных.