З цього уроку ви дізнаєтеся, що слід враховувати, якщо дані й моделі – частина систем, які працюють у реальних умовах.
Чи корисна кожна з ознак?
Ви маєте постійно спостерігати за своєю моделлю, щоб видаляти ознаки, які майже або взагалі не впливають на те, як вона робить прогнози. Якщо вхідні дані для такої ознаки сильно зміняться, поведінка вашої моделі також може різко змінитися на небажану.
Також поставте собі пов’язане запитання, наведене нижче.
- Чи справді користь від цієї ознаки компенсує витрати на її застосування?
Завжди є спокуса додати в модель більше ознак. Скажімо, ви знайшли й додали нову ознаку, завдяки якій прогнози моделі дещо покращилися. Звісно, здається, що трохи якісніші прогнози – це краще, ніж дещо гірші, але ця додаткова ознака збільшує навантаження на модель.
Чи надійне ваше джерело даних?
Нижче вказано, що потрібно врахувати стосовно надійності вхідних даних.
- Сигнал буде доступний завжди чи надходить із ненадійного джерела? Наприклад:
- сигнал може бути від сервера, який виходить із ладу при великому навантаженні;
- сигнал може надходити від людей, які що серпня їдуть у відпустку.
- Чи змінюється система, яка обчислює вхідні дані моделі? Якщо так, потрібно знати:
- як часто це відбувається;
- як дізнатися, що система змінюється.
Створіть власну копію даних, які ви отримуєте в результаті попереднього процесу. Після цього переходьте до наступної версії попередніх даних тільки тоді, коли переконаєтеся, що це безпечно.
Чи є ваша модель частиною циклу зі зворотним зв’язком?
Іноді модель може впливати на свої навчальні дані. Наприклад, результати деяких моделей стають (прямо чи опосередковано) її вхідними даними.
Іноді одна модель може впливати на іншу. Наприклад, розгляньмо дві моделі для прогнозування цін на акції:
- Модель А, яка погано прогнозує їх;
- Модель Б.
Оскільки модель A працює з помилками, вона приймає хибне рішення про купівлю акцій із пакета X.
Ці покупки підвищують ціни на пакет X. Модель Б використовує ціну пакета Х як вхідну ознаку, тому може зробити хибні висновки про його вартість. Отже, модель Б може купувати або продавати акції з пакета Х, спираючись на помилкову поведінку моделі А.
Поведінка моделі Б й собі може вплинути на модель А й, імовірно, спровокувати тюльпаноманію, тобто різке падіння курсу акцій із пакета компанії Х.
Вправа. Перевірте свої знання
Які три моделі з перелічених нижче схильні до виникнення циклу зі зворотним зв’язком?
Модель прогнозування дорожнього руху, яка передбачає затори на з’їздах з автомагістралей біля пляжу, спираючись на розмір натовпу на ньому як на одну з ознак.
Деякі туристи, імовірно, будуватимуть свої плани на основі прогнозу дорожнього руху. Якщо на пляжі великий натовп і прогнозується інтенсивний дорожній рух, чимало людей можуть змінити свої плани, унаслідок чого відвідуваність пляжу може знизитися. Після цього модель прогнозуватиме, що дорожній рух буде менш інтенсивним. Тоді відвідуваність пляжу збільшиться, і цикл повториться знову.
Модель рекомендацій книг, яка на основі популярності романів (тобто на кількості покупок) пропонує ті, що можуть сподобатися користувачам.
Рекомендації книг, імовірно, сприятимуть покупкам. Відомості про ці додаткові продажі повертатимуться в модель як вхідні дані, підвищуючи ймовірність того, що в майбутньому вона рекомендуватиме ті самі книги.
Модель рейтингу університетів, яка оцінює навчальні заклади частково за вибірковістю – відсотком студентів, яких прийняли, з тих, що подавали заяву на вступ.
Рейтинг моделі може привернути додаткову увагу до навчальних закладів із найвищими оцінками, і тоді кількість заяв, які вони отримують, збільшиться. Якщо ці університети й надалі прийматимуть таку саму кількість студентів, то вибірковість зростатиме (відсоток прийнятих студентів зменшуватиметься). Через це рейтинги таких навчальних закладів підвищаться, а отже, інтерес до них із боку потенційних студентів зросте, і так далі.
Модель для передбачення результатів голосування, яка прогнозує переможця виборів мера на основі опитування 2% виборців після закриття дільниць.
Якщо модель не публікує свій прогноз до закриття виборчих дільниць, її прогнози не можуть вплинути на поведінку виборців.
Модель вартості житла, яка прогнозує ціни, використовуючи розмір (площу у квадратних метрах), кількість спальних кімнат і географічне розташування як ознаки.
Неможливо швидко змінити місце розташування, розмір або кількість спальних кімнат житла у відповідь на прогнози цін, тому виникнення циклу зі зворотним зв’язком малоймовірне. Однак можлива кореляція між розміром житла й кількістю спальних кімнат (у великих будинках їх може бути більше), яку, імовірно, доведеться враховувати.
Модель визначення атрибутів обличчя, яка розпізнає, чи посміхається людина на фотографії. Ця модель регулярно навчається на базі даних фотографій із фотобанку, яка автоматично оновлюється щомісяця.
У цьому прикладі немає циклу зі зворотним зв’язком, оскільки прогнози моделі ніяк не впливають на базу даних фотографій. Однак є інша проблема – зміна версій вхідних даних: щомісячні оновлення потенційно можуть мати непередбачувані наслідки для моделі.