Справедливість: перевірте свої знання

Істина чи хиба: історична упередженість виникає, коли модель навчається на старих даних.

Істина

Хиба

Розробники навчають регресійну модель, щоб вона прогнозувала калорійність страв на основі різноманітних даних ознак, зібраних із сайтів із рецептами з усього світу. Це, наприклад, розмір порції, інгредієнти й способи приготування. Які з проблем із даними, наведених нижче, є потенційними джерелами упередженості, які слід дослідити ретельніше?

Виберіть потрібну кількість відповідей.

Приблизно для 4000 із 40 000 навчальних прикладів не було задане значення для ознаки "розмір порції".

Приблизно 5000 навчальних прикладів містили вимірювання в британських одиницях (унціях, фунтах тощо), тоді як в інших 35 000 прикладів були вимірювання в метричних одиницях (грамах, літрах тощо).

Приблизно 100 із 40 000 навчальних прикладів мали значення інгредієнтів, які з високою імовірністю бути хибними (наприклад, 100 пачок вершкового масла).

Деякі популярні страви були недостатньо представлені в навчальних даних порівняно з іншими (наприклад, було 200 навчальних прикладів для доси, але лише 10 для піци).

Модель виявлення сарказму навчалася на 80 000 текстових повідомлень: з них 40 000 надіслали дорослі (віком від 18 років), а інші 40 000 – неповнолітні (які не досягли 18 років). Потім модель оцінювалася на тестовому наборі з 20 000 повідомлень – 10 000 від дорослих і 10 000 від неповнолітніх. Матриці плутанини, наведені нижче, показують результати для кожної групи (позитивний прогноз означає класифікацію в групу "сарказм"; негативний прогноз – у групу "не сарказм").

Дорослі

Істиннопозитивні (TP): 512	Хибнопозитивні (FP): 51
Хибнонегативні (FN): 36	Істиннонегативні (TN): 9401
Влучність = TP/(TP + FP) = 0,909
Повнота = TP/(TP + FN) = 0,934

Неповнолітні

Істиннопозитивні (TP): 2147	Хибнопозитивні (FP): 96
Хибнонегативні (FN): 2177	Істиннонегативні (TN): 5580
Влучність = TP/(TP + FP) = 0,957
Повнота = TP/(TP + FN) = 0,497

Які з наведених нижче тверджень щодо ефективності тестового набору моделі правильні?

Виберіть потрібну кількість відповідей.

Модель краще працює на прикладах, зібраних від дорослих, а не неповнолітніх.

10 000 повідомлень, які надіслали дорослі, є набором даних, незбалансованим за класами.

10 000 повідомлень, які надіслали неповнолітні, є набором даних, незбалансованим за класами.

Приблизно 50% повідомлень, які надіслали неповнолітні, класифікуються як "сарказм" неправильно.

Модель не класифікує приблизно 50% саркастичних повідомлень неповнолітніх як "сарказм".

Яка з гіпотез, указаних нижче, могла б пояснити розбіжності в результатах для підгруп, які виявила перевірка моделі виявлення сарказму, наведеної вище, на тестовому наборі?

Виберіть потрібну кількість відповідей.

Модель занадто сильно помиляється з прогнозом сарказму. У результаті вона частіше помиляється, коли класифікує текстові повідомлення від неповнолітніх, оскільки в тестовому наборі більше саркастичних повідомлень саме від них.

Серед даних, на яких оцінювалася модель, більше прикладів, для яких прогноз мав бути негативним (не саркастичних), були від неповнолітніх, а не від дорослих, через що кількість помилок для неповнолітніх переважає.

Сарказм у текстових повідомленнях від неповнолітніх витонченіший, а отже, менш імовірно, що модель його виявить.

Насправді саркастичних повідомлень від дорослих набагато менше, ніж від неповнолітніх. Якби модель оцінювалася на наборі повідомлень від дорослих, збалансованішому за класами, її коефіцієнт повноти міг би знизитися для цієї підгрупи.

Інженери працюють над повторним навчанням моделі сарказму, описаної вище, щоб усунути невідповідності в точності виявлення сарказму в повідомленнях від різних вікових категорій населення, проте модель уже використовується в робочому середовищі. Яка з наведених нижче стратегій тимчасових рішень допоможе зменшити помилки в прогнозах моделі?

Слід обмежити використання моделі для аналізу текстових повідомлень, які надіслали неповнолітні.

Слід скоригувати результат роботи моделі так, щоб вона повертала значення "сарказм" для всіх текстових повідомлень, які надіслали неповнолітні, незалежно від її початкового прогнозу.

Коли модель надає прогноз "не сарказм" для текстових повідомлень, які надіслали неповнолітні, слід скоригувати результат так, щоб замість цього вона повертала значення "не визначено".