Системи машинного навчання, які працюють у реальних умовах: запитання

Із цього уроку ви дізнаєтеся, що слід враховувати, якщо дані й моделі – частина систем, які працюють у реальних умовах.

Чи корисна кожна з ознак?

Ви маєте постійно спостерігати за своєю моделлю, щоб видаляти ознаки, які майже або взагалі не впливають на те, як вона робить прогнози. Якщо вхідні дані для такої ознаки сильно зміняться, поведінка вашої моделі також може різко змінитися на небажану.

Також поставте собі пов’язане запитання, наведене нижче.

  • Чи справді користь від цієї ознаки компенсує витрати на її застосування?

Завжди є спокуса додати в модель більше ознак. Скажімо, ви знайшли й додали нову ознаку, завдяки якій прогнози моделі дещо покращилися. Звісно, здається, що трохи якісніші прогнози – це краще, ніж дещо гірші, але ця додаткова ознака збільшує навантаження на модель.

Чи надійне ваше джерело даних?

Нижче вказано, що потрібно врахувати стосовно надійності вхідних даних.

  • Сигнал буде доступний завжди чи надходить із ненадійного джерела? Наприклад:
    • Чи надходить сигнал від сервера, який виходить із ладу за великого навантаження?
    • Чи надходить сигнал від людей, які щосерпня їдуть у відпустку?
  • Чи змінюється система, яка обчислює вхідні дані моделі? Якщо так, потрібно знати:
    • як часто це відбувається;
    • як дізнатися, що система змінюється.

Створіть власну копію даних, які ви отримуєте в результаті попереднього процесу. Після цього переходьте до наступної версії попередніх даних тільки тоді, коли переконаєтеся, що це безпечно.

Чи є ваша модель частиною циклу зі зворотним зв’язком?

Іноді модель може впливати на свої навчальні дані. Наприклад, результати деяких моделей стають (прямо чи опосередковано) її вхідними даними.

Іноді одна модель може впливати на іншу. Наприклад, розгляньмо дві моделі для прогнозування цін на акції:

  • Модель А, яка погано прогнозує їх;
  • Модель Б.

Оскільки модель A працює з помилками, вона приймає хибне рішення про купівлю акцій із пакета X. Ці покупки підвищують ціни на пакет X. Модель Б використовує ціну пакета Х як вхідну ознаку, тому може зробити хибні висновки про його вартість. Отже, модель Б може купувати або продавати акції з пакета Х, спираючись на помилкову поведінку моделі А. Поведінка моделі Б й собі може вплинути на модель А й, імовірно, спровокувати тюльпаноманію, тобто різке падіння курсу акцій із пакета компанії Х.

Вправа. Перевірте свої знання

Які три моделі з перелічених нижче схильні до виникнення циклу зі зворотним зв’язком?
Модель визначення атрибутів обличчя, яка розпізнає, чи посміхається людина на фотографії. Ця модель регулярно навчається на базі даних фотографій із фотобанку, яка автоматично оновлюється щомісяця.
Модель вартості житла, яка прогнозує ціни, використовуючи розмір (площу у квадратних метрах), кількість спальних кімнат і географічне розташування як ознаки.
Модель рейтингу університетів, яка оцінює навчальні заклади частково за вибірковістю – відсотком студентів, яких прийняли, з тих, що подавали заяву на вступ.
Модель прогнозування дорожнього руху, яка передбачає затори на з’їздах з автомагістралей біля пляжу, спираючись на розмір натовпу на ньому як на одну з ознак.
Модель рекомендацій книг, яка на основі популярності романів (тобто на кількості покупок) пропонує ті, що можуть сподобатися користувачам.
Модель для передбачення результатів голосування, яка прогнозує переможця виборів мера на основі опитування 2% виборців після закриття дільниць.