Измерение успеха

Как вы узнаете, стоила ли ваша реализация машинного обучения затраченных усилий? Когда следует начинать праздновать: сразу после того, как модель будет запущена в производство и выполнит свой первый прогноз, или только после того, как количественные бизнес-метрики начнут двигаться в правильном направлении?

Прежде чем начать проект, очень важно определить показатели успеха и согласовать результаты. Вам потребуется определить и отслеживать следующие два типа показателей:

  • Бизнес-метрики. Метрики для количественной оценки эффективности бизнеса, например доход, рейтинг кликов или количество пользователей.

  • Модельные метрики. Метрики для количественной оценки качества модели, например среднеквадратическая ошибка , точность или полнота .

Бизнес-метрики

Бизнес-показатели являются наиболее важными. Это причина, по которой вы используете ML: вы хотите улучшить бизнес.

Начните с количественных показателей продукта или бизнеса. Метрика должна быть максимально детализированной и целенаправленной. Ниже приведены примеры целенаправленных, поддающихся количественной оценке бизнес-показателей:

  • Сократите ежемесячные расходы на электроэнергию в центре обработки данных на 30 процентов.
  • Увеличьте доход от рекомендаций по продуктам на 12 процентов.
  • Увеличьте рейтинг кликов на 9 процентов.
  • Повысьте настроение клиентов за счет добровольных опросов на 20 процентов.
  • Увеличьте время пребывания на странице на 4 процента.

Отслеживание бизнес-показателей

Если вы не отслеживаете бизнес-показатели, которые хотите улучшить, начните с реализации соответствующей инфраструктуры. Ставить цель увеличить рейтинг кликов на 15% нелогично, если вы в настоящее время не измеряете рейтинг кликов.

Что еще более важно, убедитесь, что вы измеряете правильный показатель для вашей проблемы. Например, не тратьте время на написание инструментов для отслеживания рейтинга кликов, если более важным показателем может быть доход от рекомендаций.

По мере продвижения вашего проекта вы поймете, является ли целевой показатель успеха на самом деле реалистичной целью. В некоторых случаях вы можете решить, что проект нежизнеспособен, учитывая определенные показатели успеха.

Метрики модели

Когда следует запустить модель в производство? Когда AUC достигает определенного значения? Когда модель достигает определенного балла F1 ? Ответ на этот вопрос зависит от типа проблемы, которую вы решаете, и качества прогнозирования, которое, по вашему мнению, необходимо для улучшения бизнес-показателей.

Определяя, по каким метрикам оценивать вашу модель, учтите следующее:

  • Определите единую метрику для оптимизации . Например, модели классификации можно оценивать по различным показателям ( AUC , AUC-PR и т. д.). Выбор лучшей модели может оказаться сложной задачей, если разные показатели благоприятствуют разным моделям. Поэтому договоритесь об одном показателе для оценки моделей.

  • Определите цели приемлемости, которых необходимо достичь . Цели приемлемости отличаются от показателей оценки модели. Они относятся к целям, которым должна соответствовать модель, чтобы считаться приемлемой для предполагаемого варианта использования. Например, целью приемлемости может быть «неправильный вывод составляет менее 0,1%» или «запоминаемость пяти верхних категорий превышает 97%».

Например, предположим, что модель двоичной классификации обнаруживает мошеннические транзакции. Его метрикой оптимизации может быть отзыв, а целью приемлемости может быть точность. Другими словами, мы бы отдали приоритет отзыву (в большинстве случаев правильному выявлению мошенничества), одновременно желая, чтобы точность оставалась на определенном уровне или выше (идентификация реальных мошеннических транзакций).

Связь между метриками модели и бизнес-метриками

По сути, вы пытаетесь разработать модель, качество прогнозирования которой причинно связано с показателями вашего бизнеса. Отличные показатели модели не обязательно подразумевают улучшение бизнес-показателей. Ваша команда может разработать модель с впечатляющими показателями, но прогнозы модели могут не улучшить бизнес-показатели.

Когда вы будете удовлетворены качеством прогнозирования вашей модели, попытайтесь определить, как метрики модели влияют на бизнес-показатели. Обычно команды развертывают модель для 1% пользователей, а затем отслеживают бизнес-метрики.

Например, предположим, что ваша команда разрабатывает модель увеличения дохода за счет прогнозирования оттока клиентов. Теоретически, если вы можете предсказать, покинет ли клиент платформу, вы можете побудить его остаться.

Ваша команда создает модель с качеством прогнозирования 95 % и тестирует ее на небольшой выборке пользователей. Однако доход не увеличивается. Отток клиентов действительно увеличивается. Вот несколько возможных объяснений:

  • Прогнозы не делаются достаточно рано, чтобы их можно было использовать . Модель может прогнозировать отток клиентов только в течение семи дней, что недостаточно скоро, чтобы предложить стимулы для удержания их на платформе.

  • Неполные характеристики . Возможно, оттоку клиентов способствуют и другие факторы, которых не было в наборе обучающих данных.

  • Порог недостаточно высок . Чтобы модель была полезной, возможно, ей необходимо иметь качество прогнозирования 97 % или выше.

Этот простой пример подчеркивает два момента:

  • Важно провести раннее пользовательское тестирование, чтобы доказать (и понять) связь между показателями модели и бизнес-показателями.
  • Отличные показатели модели не гарантируют улучшение бизнес-показателей.

Генеративный ИИ

Оценка результатов генеративного ИИ представляет собой уникальные проблемы. Во многих случаях, например, в открытых или творческих результатах, это сложнее, чем оценка традиционных результатов ML.

LLM можно измерять и оценивать по множеству показателей. Определение того, по каким метрикам оценивать вашу модель, зависит от вашего варианта использования. Для получения дополнительной информации см. «Введение в оценку LLM» .

Иметь ввиду

Не путайте модельный успех с успехом в бизнесе. Другими словами, модель с выдающимися показателями не гарантирует успеха в бизнесе.

Многие опытные инженеры могут создавать модели с впечатляющими метриками. Обучение достаточно хорошей модели обычно не является проблемой. Скорее, дело в том, что модель не улучшает бизнес-показатели. Проект ML может быть обречен на провал из-за несоответствия между бизнес-показателями и показателями модели.

Проверьте свое понимание