Категорійні дані: вправи на поєднання ознак

Інтерактивне середовище – це інтерактивний додаток, який дає змогу керувати різними аспектами тренування й тестування моделі машинного навчання. В інтерактивному середовищі можна вибирати ознаки й налаштовувати гіперпараметри, а потім спостерігати, як ваш вибір впливає на модель.

На цій сторінці представлено дві вправи, що передбачають роботу в інтерактивному середовищі.

Вправа 1. Базове поєднання ознак

Виконуючи цю вправу, потрібно зосередитися на частинах інтерфейсу користувача інтерактивного середовища, указаних нижче.

Зверніть увагу на три потенційні ознаки моделі, указані в розділі "ОЗНАКИ":
- x₁;
- x₂;
- x₁x₂.
У розділі "ВИХІДНІ ДАНІ" ви побачите квадрат із помаранчевими й синіми точками. Уявіть, що ви дивитеся на квадратний ліс, де помаранчевими точками позначено хворі дерева, а синіми – здорові.
Якщо придивитись уважно, то між розділами "ОЗНАКИ" й "ВИХІДНІ ДАНІ" можна помітити три тонкі пунктирні лінії, що з’єднують кожну ознаку з результатом. Ширина кожної пунктирної лінії позначає вагу, яка наразі відповідає кожній з ознак. Ці лінії дуже тонкі, тому що початкова вага кожної ознаки – 0. Якщо збільшувати або зменшувати значення ваги, товщина цих ліній змінюватиметься відповідно.

Завдання 1. Ознайомтеся з інтерактивним середовищем:

Натисніть на тонкій лінії, що з’єднує ознаку x₁ із вихідним параметром. З’явиться спливаюче вікно.
У ньому введіть вагу 1.0.
Натисніть клавішу Enter.

Нижче описано, на що слід звернути увагу.

Пунктирна лінія для x₁ стала товщою, коли ви збільшили вагу, замінивши 0 на 1,0.
З’явився помаранчево-синій фон.
- Помаранчевий фон – це припущення моделі щодо того, де ростуть хворі дерева.
- Синій – припущення щодо того, де ростуть здорові дерева. Результат роботи моделі повністю незадовільний: близько половини припущень моделі хибні.
Оскільки вага параметра x₁ становить 1,0, а інших ознак – 0, модель точно відповідає значенням x₁.

Завдання 2. Змініть параметри ваги якоїсь з ознак або всіх трьох так, щоб модель (кольори фону) успішно прогнозувала місцезнаходження хворих і здорових дерев. Вирішення наведено під зображенням інтерактивного середовища.

Вирішення завдання 2

w₁ = 0
w₂ = 0
x₁ x₂ = будь-яке додатне значення

А що станеться, якщо ввести від’ємне значення для поєднання ознак?

Вправа 2. Складніше поєднання ознак

Щоб виконати другу вправу, подивіться на розташування помаранчевих і синіх точок (які позначають хворі й здорові дерева відповідно) у вихідній моделі. Нижче описано, на що слід звернути увагу.

Точки утворюють дещо сферичні візерунки.
Розташування точок зашумлене; зокрема, зверніть увагу на випадкові сині точки в зовнішній сфері помаранчевих точок. Отже, навіть найкраща модель навряд чи зможе правильно спрогнозувати розташування кожної точки.

Завдання 1. Ознайомтеся з інтерфейсом користувача інтерактивного середовища.

Натисніть кнопку запуску/паузи (значок із білим трикутником усередині чорного кола). В інтерактивному середовищі почнеться навчання моделі; спостерігайте, як збільшується значення на лічильнику епох.
Коли мине принаймні 300 епох, натисніть ту саму кнопку, щоб призупинити навчання.
Подивіться на модель. Чи робить вона хороші прогнози? Іншими словами, чи розташовано сині точки здебільшого на синьому фоні, а помаранчеві – на помаранчевому?
Зверніть увагу на значення параметра "Втрати при тестуванні" у розділі "ВИХІДНІ ДАНІ". Воно ближче до 1,0 (більші втрати) чи 0 (менші)?
Скиньте налаштування інтерактивного середовища, натиснувши значок стрілки у формі кола, розташований ліворуч від кнопки запуску/паузи.

Завдання 2. Створіть кращу модель, виконуючи вказівки, наведені нижче.

Виберіть будь-яку комбінацію з п’яти можливих ознак або скасуйте її вибір.
Налаштуйте швидкість навчання.
Навчайте систему принаймні впродовж 500 епох.
Перевірте значення параметра "Втрати при тестуванні". Вдається зробити так, щоб значення цього показника було меншим за 0,2?

Вирішення наведено під зображенням інтерактивного середовища.

Вирішення завдання 1

Модель працює дуже незадовільно. Зверніть увагу, наприклад, на те, що багато помаранчевих точок розташовано на синьому фоні. Крім того, втрати при тестуванні дуже великі.

Вирішення завдання 2

Ви можете покращити ефективність моделі, виконавши такі дії:

виберіть обидва поліноміальні перетворення (x₁² і x₂²) і скасуйте вибір інших трьох можливих ознак;
знизьте швидкість навчання до 0.001 або меншої.

特征组合（5 分钟）

Далі

知识测验（10 分钟）