Глоссарий машинного обучения: метрики

На этой странице содержатся термины глоссария Метрики. Чтобы просмотреть все термины глоссария, нажмите здесь .

А

точность

#основы
#Метрика

Количество правильных прогнозов классификации, разделенное на общее количество прогнозов. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация дает конкретные названия различным категориям правильных и неправильных прогнозов . Итак, формула точности бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

Сравните и сопоставьте точность с точностью и отзывом .

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.

площадь под кривой PR

#Метрика

См. PR AUC (площадь под кривой PR) .

площадь под кривой ROC

#Метрика

См. AUC (площадь под кривой ROC) .

AUC (Площадь под кривой ROC)

#основы
#Метрика

Число от 0,0 до 1,0, обозначающее способность модели бинарной классификации отделять положительные классы от отрицательных классов . Чем ближе AUC к 1,0, тем лучше способность модели отделять классы друг от друга.

Например, на следующем рисунке показана модель классификатора, которая идеально отделяет положительные классы (зеленые овалы) от отрицательных классов (фиолетовые прямоугольники). Эта нереально идеальная модель имеет AUC 1,0:

Числовая линия с 8 положительными примерами на одной стороне и           9 негативных примеров с другой стороны.

И наоборот, на следующем рисунке показаны результаты для модели классификатора, которая генерировала случайные результаты. Эта модель имеет AUC 0,5:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров положительная, отрицательная,           положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный           отрицательный, положительный, отрицательный.

Да, предыдущая модель имеет AUC 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель несколько отделяет положительные значения от отрицательных и поэтому имеет AUC где-то между 0,5 и 1,0:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров отрицательная, отрицательная, отрицательная, отрицательная,           положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный,           позитивный.

AUC игнорирует любые значения, установленные вами для порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

средняя точность при k

#язык
#Метрика

Метрика для подведения итогов эффективности модели в одном запросе, который генерирует ранжированные результаты, например нумерованный список рекомендаций по книгам. Средняя точность при k — это среднее значение точности при значениях k для каждого соответствующего результата. Таким образом, формула средней точности при k выглядит следующим образом:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

где:

  • \(n\) — количество соответствующих элементов в списке.

Сравните с отзывом в k .

Б

базовый уровень

#Метрика

Модель, используемая в качестве ориентира для сравнения эффективности другой модели (обычно более сложной). Например, модель логистической регрессии может служить хорошей основой для глубокой модели .

Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно определить минимальную ожидаемую производительность, которой должна достичь новая модель, чтобы новая модель была полезной.

С

расходы

#Метрика

Синоним потери .

контрфактическая справедливость

#справедливость
#Метрика

Метрика справедливости , которая проверяет, дает ли классификатор тот же результат для одного человека, что и для другого человека, идентичного первому, за исключением одного или нескольких чувствительных атрибутов . Оценка классификатора на предмет контрфактической справедливости — один из методов выявления потенциальных источников систематической ошибки в модели.

Дополнительные сведения см. в одном из следующих разделов:

перекрестная энтропия

#Метрика

Обобщение Log Loss для задач многоклассовой классификации . Перекрестная энтропия количественно определяет разницу между двумя распределениями вероятностей. См. также недоумение .

кумулятивная функция распределения (CDF)

#Метрика

Функция, определяющая частоту выборок, меньшую или равную целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. CDF сообщает вам, что примерно 50% выборок должны быть меньше или равны среднему значению и что примерно 84% выборок должны быть меньше или равны одному стандартному отклонению выше среднего.

Д

демографический паритет

#справедливость
#Метрика

Метрика справедливости , которая удовлетворяется, если результаты классификации модели не зависят от заданного конфиденциального атрибута .

Например, если и лилипуты, и бробдингнаги подают документы в университет Глуббдубдриб, демографический паритет достигается, если процент принятых лилипутов такой же, как процент принятых бробдингнагов, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.

Сравните с уравниванием шансов и равенством возможностей , которые позволяют результатам классификации в совокупности зависеть от конфиденциальных атрибутов, но не позволяют результатам классификации для определенных указанных основных меток истинности зависеть от конфиденциальных атрибутов. См. «Борьба с дискриминацией с помощью более разумного машинного обучения» , где представлена ​​визуализация компромиссов при оптимизации для достижения демографического паритета.

Дополнительную информацию см. в разделе «Справедливость: демографический паритет» в ускоренном курсе машинного обучения.

Э

расстояние землеройной машины (EMD)

#Метрика

Мера относительного сходства двух распределений . Чем меньше расстояние, на которое проехал землеройный комбайн, тем более схожими являются распределения.

изменить расстояние

#язык
#Метрика

Измерение того, насколько похожи две текстовые строки друг на друга. В машинном обучении расстояние редактирования полезно по следующим причинам:

  • Расстояние редактирования легко вычислить.
  • Расстояние редактирования позволяет сравнивать две строки, которые, как известно, похожи друг на друга.
  • Расстояние редактирования может определять степень сходства различных строк с данной строкой.

Существует несколько определений расстояния редактирования, каждое из которых использует разные строковые операции. См. пример расстояния Левенштейна .

эмпирическая кумулятивная функция распределения (eCDF или EDF)

#Метрика

Кумулятивная функция распределения , основанная на эмпирических измерениях на основе реального набора данных. Значение функции в любой точке вдоль оси X — это доля наблюдений в наборе данных, которые меньше или равны указанному значению.

энтропия

#df
#Метрика

В теории информации — описание того, насколько непредсказуемо распределение вероятностей. Альтернативно, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

  • H — энтропия.
  • p — доля примеров «1».
  • q — доля примеров «0». Обратите внимание, что q = (1 - p)
  • log обычно равен log 2 . В данном случае единицей энтропии является бит.

Например, предположим следующее:

  • 100 примеров содержат значение «1»
  • 300 примеров содержат значение «0»

Следовательно, значение энтропии равно:

  • р = 0,25
  • q = 0,75
  • H = (-0,25)log 2 (0,25) - (0,75)log 2 (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 «0» и 200 «1») будет иметь энтропию 1,0 бита на каждый пример. Когда набор становится более несбалансированным , его энтропия приближается к 0,0.

В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия во время роста дерева решений классификации.

Сравните энтропию с:

Энтропию часто называют энтропией Шеннона .

Дополнительную информацию см. в разделе Точный разделитель для двоичной классификации с числовыми признаками в курсе «Леса решений».

равенство возможностей

#справедливость
#Метрика

Метрика справедливости , позволяющая оценить, одинаково ли хорошо модель предсказывает желаемый результат для всех значений чувствительного атрибута . Другими словами, если желаемым результатом модели является положительный класс , цель состоит в том, чтобы истинный положительный уровень был одинаковым для всех групп.

Равенство возможностей связано с уравниванием шансов , которое требует, чтобы как истинно положительные, так и ложноположительные показатели были одинаковыми для всех групп.

Предположим, что университет Глаббдубдриб принимает как лилипутов, так и бробдингнегов на строгую математическую программу. Средние школы лилипутов предлагают обширную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. В средних школах Бробдингнеджана вообще не проводятся занятия по математике, и в результате гораздо меньше учеников имеют соответствующую квалификацию. Равенство возможностей соблюдается для предпочтительного ярлыка «допущенный» в отношении национальности (лилипут или бробдингнаг), если квалифицированные студенты имеют одинаковую вероятность быть принятыми независимо от того, являются ли они лилипутами или бробдингнегами.

Например, предположим, что 100 лилипутов и 100 бробдингнагцев подают заявки в университет Глаббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 1. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 3
Отклоненный 45 7
Общий 90 10
Процент зачисленных квалифицированных студентов: 45/90 = 50%.
Процент отклоненных неквалифицированных студентов: 7/10 = 70%.
Общий процент зачисленных студентов-лилипутов: (45+3)/100 = 48%.

Таблица 2. Кандидаты из Бробдингнага (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 9
Отклоненный 5 81
Общий 10 90
Процент зачисленных квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 81/90 = 90%.
Общий процент зачисленных студентов Бробдингнега: (5+9)/100 = 14%.

Предыдущие примеры удовлетворяют равенству возможностей для приема квалифицированных студентов, поскольку квалифицированные лилипуты и бробдингнаги имеют 50% шансов на поступление.

Хотя равенство возможностей соблюдается, следующие два показателя справедливости не выполняются:

  • демографический паритет : лилипуты и бробдингнаги принимаются в университет с разной скоростью; Принимаются 48% студентов-лилипутов, но только 14% студентов-бробдингнегов.
  • уравненные шансы : хотя квалифицированные студенты-лилипуты и бробдингнаги имеют одинаковые шансы на поступление, дополнительное ограничение, заключающееся в том, что неквалифицированные лилипуты и бробдингнаги имеют одинаковые шансы быть отвергнутыми, не удовлетворяется. У неквалифицированных лилипутов процент отказов составляет 70%, тогда как у неквалифицированных бробдингнагцев — 90%.

Дополнительную информацию см. в разделе «Справедливость: равенство возможностей в ускоренном курсе машинного обучения».

уравненные шансы

#справедливость
#Метрика

Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель прогнозирует результаты для всех значений чувствительного атрибута как в отношении положительного, так и в отношении отрицательного класса, а не только одного или другого класса. Другими словами, как процент истинно положительных результатов , так и уровень ложноотрицательных результатов должны быть одинаковыми для всех групп.

Уравненные шансы связаны с равенством возможностей , которое фокусируется только на частоте ошибок для одного класса (положительных или отрицательных).

Например, предположим, что университет Глаббдубдриб принимает как лилипутов, так и бробдингнегов на строгую математическую программу. Средние школы лилипутов предлагают обширную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. В средних школах Бробдингнеджана вообще не проводятся занятия по математике, и в результате гораздо меньше учеников имеют соответствующую квалификацию. Уравненные шансы удовлетворяются при условии, что независимо от того, является ли заявитель лилипутом или бробдингнежцем, если он соответствует требованиям, он имеет одинаковую вероятность быть допущенным к программе, а если он не соответствует требованиям, он с одинаковой вероятностью будет отклонен. .

Предположим, 100 лилипутов и 100 бробдингнагцев подают заявки в университет Глаббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 3. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 2
Отклоненный 45 8
Общий 90 10
Процент зачисленных квалифицированных студентов: 45/90 = 50%.
Процент отклоненных неквалифицированных студентов: 8/10 = 80%.
Общий процент зачисленных студентов-лилипутов: (45+2)/100 = 47%.

Таблица 4. Кандидаты из Бробдингнага (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 18
Отклоненный 5 72
Общий 10 90
Процент зачисленных квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 72/90 = 80%.
Общий процент зачисленных студентов Бробдингнега: (5+18)/100 = 23%.

Уравненные шансы удовлетворяются, потому что квалифицированные студенты-лилипуты и бробдингнеги имеют 50% шанс быть принятыми, а неквалифицированные лилипуты и бробдингнаги имеют 80% шанс быть отклоненными.

Уравненные шансы формально определены в «Равенстве возможностей в контролируемом обучении» следующим образом: «предиктор Ŷ удовлетворяет уравненным шансам в отношении защищенного атрибута A и результата Y, если Ŷ и A независимы, при условии зависимости от Y».

оценивает

#язык
#генеративныйИИ
#Метрика

В основном используется как аббревиатура для оценок LLM . В более широком смысле, evals — это аббревиатура, обозначающая любую форму оценки .

оценка

#язык
#генеративныйИИ
#Метрика

Процесс измерения качества модели или сравнения различных моделей друг с другом.

Чтобы оценить модель контролируемого машинного обучения , вы обычно сравниваете ее с набором проверки и набором тестов . Оценка LLM обычно включает в себя более широкую оценку качества и безопасности.

Ф

Ф 1

#Метрика

«Сводная» метрика двоичной классификации , которая зависит как от точности , так и от полноты . Вот формула:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

показатель справедливости

#справедливость
#Метрика

Математическое определение «справедливости», поддающееся измерению. Некоторые часто используемые показатели справедливости включают в себя:

Многие показатели справедливости являются взаимоисключающими; см . несовместимость показателей справедливости .

ложноотрицательный (ФН)

#основы
#Метрика

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (негативный класс), но на самом деле это сообщение электронной почты является спамом .

ложноотрицательный показатель

#Метрика

Доля реальных положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула рассчитывает уровень ложноотрицательных результатов:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

ложноположительный результат (FP)

#основы
#Метрика

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты не является спамом .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

уровень ложноположительных результатов (FPR)

#основы
#Метрика

Доля реальных отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает уровень ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Частота ложноположительных результатов — это ось X на кривой ROC .

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

важность функций

#df
#Метрика

Синоним переменных важностей .

доля успехов

#генеративныйИИ
#Метрика

Метрика для оценки текста, сгенерированного моделью машинного обучения. Доля успехов — это количество «успешных» сгенерированных текстовых выходных данных, деленное на общее количество сгенерированных текстовых выходных данных. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых оказались успешными, то доля успешных результатов составит 50%.

Хотя доля успехов широко полезна в статистике, в рамках машинного обучения этот показатель в первую очередь полезен для измерения проверяемых задач, таких как генерация кода или математические задачи.

Г

Джини примесь

#df
#Метрика

Метрика, похожая на энтропию . Разделители используют значения, полученные либо из примеси Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации происходит от энтропии. Не существует общепринятого эквивалентного термина для показателя, полученного из примеси Джини; однако этот безымянный показатель так же важен, как и получение информации.

Примесь Джини еще называют индексом Джини , или просто Джини .

ЧАС

потеря шарнира

#Метрика

Семейство функций потерь для классификации, предназначенное для поиска границы решения как можно дальше от каждого обучающего примера, тем самым максимизируя разницу между примерами и границей. KSVM используют шарнирные потери (или связанную с ними функцию, например, квадратичные шарнирные потери). Для бинарной классификации функция шарнирных потерь определяется следующим образом:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

где y — истинная метка, либо -1, либо +1, а y’ — необработанный результат модели классификатора:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Следовательно, график потери шарнира в зависимости от (y * y') выглядит следующим образом:

Декартов график, состоящий из двух соединенных отрезков прямой. Первый           сегмент линии начинается в (-3, 4) и заканчивается в (1, 0). Вторая линия           сегмент начинается в (1, 0) и продолжается бесконечно с наклоном           из 0.

я

несовместимость показателей справедливости

#справедливость
#Метрика

Идея о том, что некоторые понятия справедливости несовместимы друг с другом и не могут быть удовлетворены одновременно. В результате не существует единого универсального показателя для количественной оценки справедливости, который можно было бы применить ко всем проблемам ОД.

Хотя это может показаться обескураживающим, несовместимость показателей справедливости не означает, что усилия по обеспечению справедливости бесплодны. Вместо этого предполагается, что справедливость должна определяться контекстуально для конкретной проблемы ОД с целью предотвращения вреда, специфичного для случаев ее использования.

См . «О (не)возможности справедливости» для более подробного обсуждения несовместимости показателей справедливости.

индивидуальная справедливость

#справедливость
#Метрика

Метрика справедливости, которая проверяет, классифицируются ли похожие люди одинаково. Например, Академия Бробдингнагяна может захотеть обеспечить индивидуальную справедливость, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов имеют равную вероятность поступления.

Обратите внимание, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае оценки и результаты тестов), и вы можете рискнуть создать новые проблемы со справедливостью, если ваш показатель сходства упускает важную информацию (например, строгость оценки учащегося). учебный план).

См . «Справедливость через осведомленность» для более подробного обсуждения индивидуальной справедливости.

получение информации

#df
#Метрика

В лесах решений — разница между энтропией узла и взвешенной (по количеству примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

  • энтропия родительского узла = 0,6
  • энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
  • энтропия другого дочернего узла с 24 соответствующими примерами = 0,1

Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Поэтому:

  • взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, информационный выигрыш составляет:

  • Прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
  • прирост информации = 0,6 - 0,14 = 0,46

Большинство раскольников стремятся создать условия , которые максимизируют получение информации.

межэкспертное соглашение

#Метрика

Измерение того, как часто оценщики соглашаются при выполнении задачи. Если оценщики не согласны с этим, инструкции по выполнению заданий, возможно, придется улучшить. Также иногда называется соглашением между аннотаторами или надежностью между экспертами . См. также каппу Коэна , которая является одним из самых популярных показателей согласия между экспертами.

Дополнительные сведения см. в разделе Категориальные данные: распространенные проблемы ускоренного курса машинного обучения.

л

L 1 потеря

#основы
#Метрика

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 1 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Абсолютное значение дельты
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Потери L1 менее чувствительны к выбросам, чем потери L2 .

Средняя абсолютная ошибка — это средняя потеря L 1 на пример.

Дополнительную информацию см. в разделе «Линейная регрессия: потери в ускоренном курсе машинного обучения».

L 2 потеря

#основы
#Метрика

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 2 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Площадь дельты
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = потеря L 2

Из-за возведения в квадрат потеря L2 усиливает влияние выбросов . То есть потеря L2 сильнее реагирует на плохие прогнозы, чем потеря L1 . Например, потеря L 1 для предыдущей партии будет равна 8, а не 16. Обратите внимание, что на один выброс приходится 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используются потери L2 .

Среднеквадратическая ошибка — это средняя потеря L 2 на пример. Квадратные потери — это другое название потерь L2 .

Дополнительную информацию см. в разделе «Логистическая регрессия: потери и регуляризация в ускоренном курсе машинного обучения».

LLM оценки (оценки)

#язык
#генеративныйИИ
#Метрика

Набор метрик и тестов для оценки производительности больших языковых моделей (LLM). На высоком уровне оценки LLM:

  • Помогите исследователям определить области, где LLM нуждается в улучшении.
  • Полезны для сравнения различных LLM и определения лучшего LLM для конкретной задачи.
  • Помогите гарантировать, что использование LLM безопасно и этически.

Дополнительные сведения см. в разделе «Большие языковые модели (LLM)» в ускоренном курсе машинного обучения.

потеря

#основы
#Метрика

Во время обучения модели с учителем — это показатель того, насколько далеко предсказание модели находится от ее метки .

Функция потерь вычисляет потери.

Дополнительную информацию см. в разделе «Линейная регрессия: потери в ускоренном курсе машинного обучения».

функция потерь

#основы
#Метрика

Во время обучения или тестирования — математическая функция, вычисляющая потери на серии примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.

Целью обучения обычно является минимизация потерь, которые возвращает функция потерь.

Существует множество различных видов функций потерь. Выберите соответствующую функцию потерь для модели, которую вы строите. Например:

М

Средняя абсолютная ошибка (MAE)

#Метрика

Средняя потеря на пример при использовании потерь L 1 . Рассчитайте среднюю абсолютную ошибку следующим образом:

  1. Рассчитайте потерю L 1 для партии.
  2. Разделите потерю L 1 на количество образцов в партии.

Например, рассмотрим расчет потерь L 1 для следующей партии из пяти примеров:

Фактическая стоимость примера Прогнозируемая ценность модели Убыток (разница между фактическим и прогнозируемым)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Итак, потеря L 1 равна 8, а количество примеров равно 5. Следовательно, средняя абсолютная ошибка равна:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Сравните среднюю абсолютную ошибку со среднеквадратической ошибкой и среднеквадратической ошибкой .

средняя средняя точность при k (mAP@k)

#язык
#генеративныйИИ
#Метрика

Статистическое среднее всей средней точности при k баллах в наборе проверочных данных. Одним из вариантов использования средней точности при k является оценка качества рекомендаций, генерируемых системой рекомендаций .

Хотя фраза «среднее среднее» звучит избыточно, название показателя вполне подходящее. В конце концов, эта метрика находит среднее значение множественной средней точности при значениях k .

Среднеквадратическая ошибка (MSE)

#Метрика

Средняя потеря на пример при использовании потерь L 2 . Рассчитайте среднеквадратическую ошибку следующим образом:

  1. Рассчитайте потерю L 2 для партии.
  2. Разделите потерю L 2 на количество образцов в партии.

Например, рассмотрим потери в следующей партии из пяти примеров:

Фактическая стоимость Прогноз модели Потеря Квадратная потеря
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = потеря L 2

Следовательно, среднеквадратическая ошибка равна:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Среднеквадратическая ошибка — популярный оптимизатор обучения, особенно для линейной регрессии .

Сравните среднеквадратическую ошибку со средней абсолютной ошибкой и среднеквадратичной ошибкой .

TensorFlow Playground использует среднеквадратическую ошибку для расчета значений потерь.

метрика

#TensorFlow
#Метрика

Статистика, которая вас волнует.

Цель — это показатель, который система машинного обучения пытается оптимизировать.

API метрик (tf.metrics)

#Метрика

API TensorFlow для оценки моделей. Например, tf.metrics.accuracy определяет, как часто прогнозы модели соответствуют меткам.

минимаксные потери

#Метрика

Функция потерь для генеративно-состязательных сетей , основанная на перекрестной энтропии между распределением сгенерированных и реальных данных.

Минимаксные потери используются в первой статье для описания генеративно-состязательных сетей.

Дополнительную информацию см. в разделе «Функции потерь» в курсе «Генераторно-состязательные сети».

мощность модели

#Метрика

Сложность проблем, которые может изучить модель. Чем сложнее проблемы, которые может изучить модель, тем выше ее емкость. Емкость модели обычно увеличивается с увеличением количества параметров модели. Формальное определение мощности классификатора см. в разделе «Измерение VC» .

Н

отрицательный класс

#основы
#Метрика

В бинарной классификации один класс называется положительным , а другой - отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:

  • Отрицательный класс медицинского теста может быть «не опухоль».
  • Отрицательный класс в классификаторе электронной почты может быть «не спам».

Контраст с позитивным классом .

О

цель

#Метрика

Метрика , которую ваш алгоритм пытается оптимизировать.

целевая функция

#Метрика

Математическая формула или показатель , который призвана оптимизировать модель. Например, целевой функцией для линейной регрессии обычно является среднеквадратичная потеря . Следовательно, при обучении модели линейной регрессии цель обучения — минимизировать среднеквадратическую потерю.

В некоторых случаях целью является максимизация целевой функции. Например, если целевой функцией является точность, цель состоит в том, чтобы максимизировать точность.

См. также потерю .

П

пройти через k (pass@k)

#Метрика

Метрика для определения качества кода (например, Python), который генерирует большая языковая модель . Точнее говоря, проход по k говорит вам о вероятности того, что хотя бы один сгенерированный блок кода из k сгенерированных блоков кода пройдет все свои модульные тесты.

Большие языковые модели часто с трудом генерируют хороший код для решения сложных задач программирования. Инженеры-программисты адаптируются к этой проблеме, побуждая большую языковую модель генерировать несколько ( k ) решений для одной и той же проблемы. Затем инженеры-программисты тестируют каждое решение с помощью модульных тестов. Расчет прохода при k зависит от результатов модульных тестов:

  • Если одно или несколько из этих решений проходят модульный тест, то LLM успешно справляется с задачей генерации кода.
  • Если ни одно из решений не проходит модульный тест, то LLM не справляется с задачей генерации кода.

Формула прохода по k выглядит следующим образом:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

В целом, более высокие значения k обеспечивают более высокую проходимость при k баллах; однако более высокие значения k требуют более крупных языковых моделей и ресурсов модульного тестирования.

производительность

#Метрика

Перегруженный термин со следующими значениями:

  • Стандартное значение в разработке программного обеспечения. А именно: насколько быстро (или эффективно) работает эта программа?
  • Значение в машинном обучении. Здесь производительность отвечает на следующий вопрос: насколько правильна эта модель ? То есть, насколько хороши предсказания модели?

Значения переменных перестановки

#df
#Метрика

Тип важности переменной , который оценивает увеличение ошибки прогнозирования модели после перестановки значений признака. Важность переменной перестановки — это метрика, независимая от модели.

недоумение

#Метрика

Один из показателей того, насколько хорошо модель выполняет свою задачу. Например, предположим, что ваша задача — прочитать первые несколько букв слова, которое пользователь набирает на клавиатуре телефона, и предложить список возможных слов-дополнений. Недоумение, P, для этой задачи — это примерно количество предположений, которые вам нужно предложить, чтобы ваш список содержал фактическое слово, которое пытается ввести пользователь.

Растерянность связана с перекрестной энтропией следующим образом:

$$P= 2^{-\text{cross entropy}}$$

позитивный класс

#основы
#Метрика

Класс, для которого вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Положительным классом в классификаторе электронной почты может быть «спам».

Сравните с отрицательным классом .

PR AUC (площадь под кривой PR)

#Метрика

Площадь под интерполированной кривой точности-отзыва , полученной путем построения точек (отзыва, точности) для различных значений порога классификации .

точность

#Метрика

Метрика для моделей классификации , отвечающая на следующий вопрос:

Когда модель предсказала положительный класс , какой процент предсказаний оказался верным?

Вот формула:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

  • истинно положительный результат означает, что модель правильно предсказала положительный класс.
  • ложное срабатывание означает, что модель ошибочно предсказала положительный класс.

Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных предсказаний:

  • 150 из них были настоящими положительными.
  • 50 оказались ложноположительными.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Сравните с точностью и отзывом .

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.

точность при k (precision@k)

#язык
#Метрика

Метрика для оценки ранжированного (упорядоченного) списка элементов. Точность в k определяет долю первых k элементов в этом списке, которые являются «релевантными». То есть:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью расчета.

Релевантность часто бывает субъективной; даже эксперты -оценщики часто расходятся во мнениях относительно того, какие элементы являются релевантными.

Сравните с:

кривая точного отзыва

#Метрика

Кривая точности и полноты при различных порогах классификации .

смещение прогноза

#Метрика

Значение, указывающее, насколько далеко среднее значение прогнозов отличается от среднего значения меток в наборе данных.

Не путать с термином предвзятости в моделях машинного обучения или с предвзятостью в вопросах этики и справедливости .

прогнозируемая четность

#справедливость
#Метрика

Метрика справедливости , которая проверяет, эквивалентны ли для данного классификатора показатели точности для рассматриваемых подгрупп.

Например, модель, предсказывающая поступление в колледж, будет удовлетворять прогнозному паритету национальности, если ее уровень точности одинаков для лилипутов и бробдингнегов.

Прогнозируемый паритет иногда также называют прогнозирующим паритетом ставок .

См. «Объяснение определений справедливости» (раздел 3.2.1) для более подробного обсуждения прогнозируемой четности.

прогнозируемый паритет ставок

#справедливость
#Метрика

Другое название прогнозирующей четности .

функция плотности вероятности

#Метрика

Функция, которая определяет частоту выборок данных, имеющих точно определенное значение. Если значения набора данных представляют собой непрерывные числа с плавающей запятой, точные совпадения встречаются редко. Однако интегрирование функции плотности вероятности от значения x до значения y дает ожидаемую частоту выборок данных между x и y .

Например, рассмотрим нормальное распределение, имеющее среднее значение 200 и стандартное отклонение 30. Чтобы определить ожидаемую частоту выборок данных, попадающих в диапазон от 211,4 до 218,7, вы можете проинтегрировать функцию плотности вероятности для нормального распределения от 211,4 до 218,7. .

Р

отзывать

#Метрика

Метрика для моделей классификации , отвечающая на следующий вопрос:

Когда основной истиной был положительный класс , какой процент прогнозов модель правильно определила как положительный класс?

Вот формула:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

  • истинно положительный результат означает, что модель правильно предсказала положительный класс.
  • ложноотрицательный означает, что модель ошибочно предсказала отрицательный класс .

Например, предположим, что ваша модель сделала 200 прогнозов на примерах, для которых основная истина была положительным классом. Из этих 200 предсказаний:

  • 180 оказались настоящими положительными.
  • 20 оказались ложноотрицательными.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и соответствующие показатели» .

отзыв в k (recall@k)

#язык
#Метрика

Метрика для оценки систем, которые выводят ранжированный (упорядоченный) список элементов. Напомним, что k определяет долю релевантных элементов в первых k элементах этого списка из общего количества возвращенных релевантных элементов.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Сравните с точностью в k .

Кривая ROC (рабочая характеристика приемника)

#основы
#Метрика

График зависимости истинно положительного результата от ложноположительного для различных порогов классификации в бинарной классификации.

Форма кривой ROC предполагает способность модели бинарной классификации отделять положительные классы от отрицательных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:

Числовая линия с 8 положительными примерами справа и           7 отрицательных примеров слева.

Кривая ROC для предыдущей модели выглядит следующим образом:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов.           является истинно положительным коэффициентом. Кривая имеет форму перевернутой буквы L. Кривая           начинается с (0.0,0.0) и идет прямо до (0.0,1.0). Тогда кривая           переходит от (0.0,1.0) к (1.0,1.0).

Напротив, на следующей иллюстрации показаны необработанные значения логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:

Числовая линия с положительными примерами и отрицательными классами           полностью перемешаны.

Кривая ROC для этой модели выглядит следующим образом:

Кривая ROC, которая на самом деле представляет собой прямую линию от (0,0,0,0).           до (1.0,1.0).

Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не идеально. Итак, типичная кривая ROC находится где-то между двумя крайностями:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов.           является истинно положительным коэффициентом. Кривая ROC представляет собой шаткую дугу.           пересекая направления компаса с запада на север.

Точка на кривой ROC, ближайшая к (0,0,1,0), теоретически определяет идеальный порог классификации. Однако на выбор идеального порога классификации влияют несколько других проблем реального мира. Например, возможно, ложноотрицательные результаты причиняют гораздо больше боли, чем ложноположительные.

Числовая метрика, называемая AUC, суммирует кривую ROC в одно значение с плавающей запятой.

Среднеквадратическая ошибка (RMSE)

#основы
#Метрика

Квадратный корень из среднеквадратической ошибки .

ROUGE (Дублер, ориентированный на отзыв, для оценки Gisting)

#язык
#Метрика

Семейство метрик, которые оценивают модели автоматического суммирования и машинного перевода . Метрики ROUGE определяют степень, в которой ссылочный текст перекрывает текст, сгенерированный моделью ML. Каждый член семейства ROUGE измеряет по-своему. Более высокие баллы ROUGE указывают на большее сходство между текстом ссылки и сгенерированным текстом, чем более низкие баллы ROUGE.

Каждый член семейства ROUGE обычно генерирует следующие показатели:

  • Точность
  • Отзывать
  • Ф 1

Подробности и примеры см.:

РУЖ-Л

#язык
#Метрика

Член семейства ROUGE сосредоточился на длине самой длинной общей подпоследовательности в справочном и сгенерированном тексте . Следующие формулы рассчитывают полноту и точность ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Затем вы можете использовать F 1 , чтобы свести отзыв ROUGE-L и точность ROUGE-L в единую метрику:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L игнорирует любые новые строки в справочном и сгенерированном тексте, поэтому самая длинная общая подпоследовательность может пересекать несколько предложений. Когда справочный текст и сгенерированный текст состоят из нескольких предложений, вариант ROUGE-L, называемый ROUGE-Lsum, обычно является лучшим показателем. ROUGE-Lsum определяет самую длинную общую подпоследовательность для каждого предложения в отрывке, а затем вычисляет среднее значение этих самых длинных общих подпоследовательностей.

РУЖ-Н

#язык
#Метрика

Набор метрик в семействе ROUGE , который сравнивает общие N-граммы определенного размера в справочном и сгенерированном тексте . Например:

  • ROUGE-1 измеряет количество общих токенов в справочном и сгенерированном тексте.
  • ROUGE-2 измеряет количество общих биграмм (2 грамма) в справочном и сгенерированном тексте.
  • ROUGE-3 измеряет количество общих триграмм (3 грамма) в справочном и сгенерированном тексте.

Вы можете использовать следующие формулы для расчета отзыва ROUGE-N и точности ROUGE-N для любого члена семейства ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Затем вы можете использовать F 1 , чтобы свести отзыв ROUGE-N и точность ROUGE-N в единую метрику:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

РУЖ-С

#язык
#Метрика

Простая форма ROUGE-N , позволяющая сопоставлять пропуски грамм . То есть ROUGE-N считает только N-граммы , которые точно совпадают, но ROUGE-S также считает N-граммы, разделенные одним или несколькими словами. Например, рассмотрим следующее:

При расчете ROUGE-N 2-граммовые белые облака не соответствуют белым вздымающимся облакам . Однако при расчете ROUGE-S Белые облака соответствуют Белым вздымающимся облакам .

R-квадрат

#Метрика

Метрика регрессии , показывающая, насколько сильно изменение метки связано с отдельным признаком или набором признаков. R-квадрат — это значение от 0 до 1, которое можно интерпретировать следующим образом:

  • R-квадрат, равный 0, означает, что ни одно из изменений метки не связано с набором функций.
  • R-квадрат, равный 1, означает, что все изменения метки обусловлены набором функций.
  • R-квадрат от 0 до 1 указывает, в какой степени можно предсказать изменение метки на основе конкретного признака или набора признаков. Например, R-квадрат, равный 0,10, означает, что 10 процентов отклонений в метке обусловлен набором функций, R-квадрат, равный 0,20, означает, что 20 процентов обусловлены набором функций, и так далее.

R-квадрат — это квадрат коэффициента корреляции Пирсона между значениями, предсказанными моделью, и истинными значениями .

С

подсчет очков

#recsystems
#Метрика

Часть системы рекомендаций , которая обеспечивает ценность или рейтинг для каждого элемента, созданного на этапе генерации кандидатов .

мера сходства

#кластеризация
#Метрика

В алгоритмах кластеризации - метрика, используемая для определения того, насколько похожи (насколько похожи) любые два примера.

редкость

#Метрика

Количество элементов, для которых установлено значение ноль (или null) в векторе или матрице, деленное на общее количество записей в этом векторе или матрице. Например, рассмотрим матрицу из 100 элементов, в которой 98 ячеек содержат ноль. Расчет разреженности выглядит следующим образом:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Разреженность признаков относится к разреженности вектора признаков; Разреженность модели относится к разреженности весов модели.

потеря шарнира в квадрате

#Метрика

Квадрат шарнирных потерь . Квадратная потеря шарнира наказывает выбросы более жестко, чем обычная потеря шарнира.

квадрат убытка

#основы
#Метрика

Синоним потери L2 .

Т

потеря теста

#основы
#Метрика

Метрика, отражающая потери модели по сравнению с тестовым набором . При построении модели вы обычно пытаетесь минимизировать потери при тестировании. Это связано с тем, что низкие потери при тестировании являются более сильным сигналом качества, чем низкие потери при обучении или низкие потери при проверке .

Большой разрыв между потерей теста и потерей обучения или потерей проверки иногда говорит о том, что вам нужно увеличить уровень регуляризации .

высшая точность

#язык
#Метрика

Процент случаев, когда «целевой ярлык» появляется в первых k позициях созданных списков. Списки могут представлять собой персонализированные рекомендации или список элементов, заказанных softmax .

Точность Top-k также известна как точность при k .

токсичность

#язык
#Метрика

Степень, в которой контент является оскорбительным, угрожающим или оскорбительным. Многие модели машинного обучения могут выявлять и измерять токсичность. Большинство этих моделей определяют токсичность по нескольким параметрам, таким как уровень ненормативной лексики и уровень угрожающей лексики.

потеря тренировки

#основы
#Метрика

Метрика, отражающая потери модели во время определенной итерации обучения. Например, предположим, что функция потерь — это среднеквадратическая ошибка . Возможно, потеря обучения (среднеквадратическая ошибка) для 10-й итерации составит 2,2, а потеря обучения для 100-й итерации составит 1,9.

Кривая потерь отображает потери при обучении в зависимости от количества итераций. Кривая потерь дает следующие подсказки по поводу обучения:

  • Наклон вниз означает, что модель улучшается.
  • Наклон вверх означает, что модель становится хуже.
  • Плоский наклон означает, что модель достигла сходимости .

Например, следующая несколько идеализированная кривая потерь показывает:

  • Крутой наклон вниз во время начальных итераций, что предполагает быстрое улучшение модели.
  • Постепенное сглаживание (но все же нисходящее) наклона почти к концу обучения, что подразумевает дальнейшее улучшение модели несколько более медленными темпами, чем во время начальных итераций.
  • Плоский наклон к концу тренировки, что предполагает сближение.

График потерь обучения в сравнении с итерациями. Эта кривая потерь начинается      с крутым спуском. Склон постепенно выравнивается, пока      наклон становится нулевым.

Хотя потеря обучения важна, см. также обобщение .

истинно отрицательный (TN)

#основы
#Метрика

Пример, в котором модель правильно предсказывает отрицательный класс . Например, модель предполагает, что конкретное сообщение электронной почты не является спамом и что это сообщение электронной почты действительно не является спамом .

истинно положительный (TP)

#основы
#Метрика

Пример, в котором модель правильно предсказывает положительный класс . Например, модель предполагает, что конкретное сообщение электронной почты является спамом, и это сообщение действительно является спамом.

истинно положительный уровень (TPR)

#основы
#Метрика

Синоним слова отзыв . То есть:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Истинно положительная ставка — это ось Y на кривой ROC .

В

потеря проверки

#основы
#Метрика

Метрика, представляющая потери модели в проверочном наборе во время определенной итерации обучения.

См. также кривую обобщения .

переменные значения

#df
#Метрика

Набор оценок, указывающий относительную важность каждой функции для модели.

Например, рассмотрим дерево решений , которое оценивает цены на жилье. Предположим, что в этом дереве решений используются три характеристики: размер, возраст и стиль. Если набор важностей переменных для трех признаков рассчитан как {size=5,8, age=2,5, style=4,7}, то размер более важен для дерева решений, чем возраст или стиль.

Существуют различные метрики важности переменных, которые могут информировать экспертов по машинному обучению о различных аспектах моделей.

Вт

Потеря Вассерштейна

#Метрика

Одна из функций потерь, обычно используемых в генеративно-состязательных сетях , основанная на расстоянии землеройного машины между распределением сгенерированных и реальных данных.