מלכודות חשיבה

בני אדם נתונים להטיות קוגניטיביות מעצם היותם בני אדם, כולל הטיית רציונליזציה והטיית אישור. אלברטו קהיר כותב, "רציונלזציה הוא מצב ברירת המחדל של המוח האנושי."1 לעיתים קרובות, אנשים מצפים או רוצים של תוצאה מסוימת, ואז לחפש נתונים או ראיות שיתמכו בתוצאה הזו.

כשעובדים עם נתונים ומודלים או מעריכים אותם, גורמים רבים יכולים להגיע מקורות שונים, לשאול על מקורות פוטנציאליים של הטיה. לדוגמה:

  • מי מממן את המודל או המחקר הזה? מה השוק או המסחר את הבקשה שלך?
  • אילו סוגי תמריצים קיימים לאנשים שמעורבים באיסוף נתונים?
  • אילו תמריצים קיימים לחוקרים שמאמנים את המודל או ביצוע המחקר, כולל פרסום והותק?
  • מי מעניק את הרישיון למודל או מפרסם את המחקר, ומה המשמעות של תמריצים?

נתונים סטטיסטיים תיאוריים

ממוצע (סכום הערכים חלקי ספירה), חציון (ערך אמצעי, כאשר הערכים מסודרים), ו-mode (הערך השכיח ביותר) עוזרים בדרך כלל לקבל מושג על הצורה של מערך הנתונים. אם החציון והממוצע רחוקים בנפרד, לדוגמה, עשויים להיות ערכים קיצוניים ואסימטריים למדי הוגדרה.

ה-range, שהוא ההפרש בין הערך הגבוה ביותר לנמוך ביותר, ואת השונות, שהיא ההפרש הממוצע בריבוע בין כל ערך לבין הממוצע של הקבוצה, מספקים גם מידע שימושי על את ההתפלגות והצורה של מערך הנתונים.

לפני אימון המודל על הנתונים, צריך לשאול גם אם מערך הנתונים לא מאוזן ואם כן, האם צריך לטפל בחוסר האיזון הזה.

סבירות בלתי סבירה וערכי p-value

בהינתן מספיק זמן ומספיק הזדמנויות, אירוע אירוע בלתי סביר הופך לסביר מאוד. לעיון בתיאוריית תרמית ברוקר של בולטימור כדוגמה אפשרית אחת.

לפי הקונצנזוס המדעי, תוצאה נחשבת בעלת מובהקות סטטיסטית (ו ולכן ניתן לפרסם אותו) כאשר ערך ה-p קטן מ- .05. כלומר, יש סיכוי של פחות מ-5% שאותה תוצאה, או תוצאה קיצונית אחת, תתרחש גם השערת אפסית – כלומר, כתוצאה מקרית. בשפה מדוברת יותר, חוקרים יכולים לפרסם רק אם יש סיכוי של 1 ב-20 או פחות התוצאות שלהן הן תוצאה של אקראיות. לחלופין, ובאופן מדאיג יותר, בערך פעם אחת בכל עשרים ניסויים, תיראי תוצאה מובהקת למרות שהוא לא משמעותי, תשע-עשרה התוצאות האחרות לא פורסם. במאמר מ-2005, "למה רוב הממצאים של המחקר לא נכונים", ג'ון יואנידיס פירט מספר גורמים, מנתונים סטטיסטיים ועד שתרמו לפרסום של תוצאות מזויפות.

לדוגמה, בהינתן התמריץ החזק לפרסום, החוקרים לפעמים מזמזים p-values סביב 0 .05 כך שיהיו מתחת לסף הזה. מועדים אחרים, מחקר שפורסם של תוצאות חיפוש בלתי צפויות, ובחרות באופן טבעי להציג ולא ניתן לשכפל אותו (וכנראה שזו תוצאה של מקריות), למשבר אמון בכמה שדות. היא גם הובילה ליצירת ארגונים שמטרתם לבדוק את יכולת השחזור.

בתחום למידת המכונה, מודלים נחשבים מתקדמים רק אם הם עומדים עולה על נקודות ההשוואה של ההערכה של רוב המודלים התחרותיים האחרים. זו ייתכן שלחצים דומים נובעים מציוני הערכה של המודל, יכול לגדל באופן מלאכותי עקב דליפה של נקודת השוואה.2

ערכי P יכולים להיות שימושיים בבחירת תכונות למודלים של רגרסיה. ANOVA (ניתוח שונות) היא שיטה סטטיסטית שמשווה שונות בין קבוצות לשונות בין הקבוצות, מחזירה סטטיסטי F ו-p-value לכל פיצ'ר. בחירה בתכונות המשמעותיות ביותר עם ערכי ה-p הנמוכים ביותר יכולה לצמצם מספר התכונות שהמודל צריך לשקול, בלי לאבד הרבה חיזויים חשמל. כך גם חוסכים מחשוב ונמנעים מהבעיה של תכונות רבות מדי, כמו שהסברנו בחלק מאוחר יותר. לצפייה ב-Scikit פרטים נוספים זמינים במדריך לבחירת תכונות.

בעיה שקשורה לכמה השוואות

בעיית סף המשמעות היא חמורה במיוחד במצבים שבהם יש כמה השוואות של השערת האפס בזמן האימון. זו בעיה ספציפית במחקרי fMRI.

ב-fMRI, כל voxel (יחידת נפח) של המוח נבדק באופן עצמאי מבחינת מובהקות סטטיסטית פעילות, ומודגשת אם כן. זה מוביל למשהו בסדר הזה 100,000 מבחני מובהקות בלתי תלויים מבוצעים בו-זמנית. עם p=.05 סף המובהקות, התיאוריה הסטטיסטית מצפה לערך של 5,000 FALSE מופיעים ב-fMRI יחיד.3

ההמחשה הטובה ביותר של הבעיה היא כנראה על ידי Bennett et al משנת 2009. פוסטר, "נקודות מבט נוירונים של בין-מיניות בהיבט של סלמון אטלנטי פוסט-מורט," שזכה ב Ig פרס נובל. החוקרים הראו 15 תמונות של בין בני אדם שנמצאים במצבים רגשיים מאוד לסלמון מת במכונת fMRI, מבקשים מהסלמון המת שיצורים חווים. הם מצאו אשכול בעל מובהקות סטטיסטית של ווקסלים פעילים בחלל המוח של הסלמון וסיימו, נשיק את הלשון, שהסלמון המת אכן היה מעורב ביצירת נקודת מבט. ברצינות רבה יותר, שהחוקרים הפנו את תשומת ליבנו לבעיה המרובת השוואות fMRI ומצבי הדמיה דומים, והצורך במיטיגציות.

פתרון ברור אחד בפירוט גס היא להוריד את ערך p-value שמציין את המובהקות. שהיא מובנת האיזון הוא בין רגישות (תיעוד של כל הנתונים החיוביים האמיתיים) לבין ספציפיות (זיהוי כל הערכים השליליים האמיתיים). דיון על רגישות, שנקרא גם שיעור חיובי אמיתי, נמצאים במודול הסיווג של קורס מקוצר על למידת מכונה.

צמצום נוסף הוא שליטה בשיעור השגיאות הקשורות למשפחה (FWER), הוא ההסתברות של לפחות תוצאה חיובית אחת או יותר. חברה אחרת שולטת שיעור הגילוי הנאות (FDR) או החלק הצפוי של התוצאות החיוביות השגויות לכל התוצאות החיוביות. עדות בנושאי ממשל ופוליטיקה לבעיית ההשוואות המרובות, וגם של לינדקוויסט ומג'יה "זן והאומנות של השוואות מרובות", כדי לקבל הסברים על השיטות האלה וכמה הדרכות מפורטות. באותו מצב עם הסלמון המת, שליטה על FDR ו-FWER הראו שלא היו דמויות בוקסל, למעשה, בעלת מובהקות סטטיסטית.

אימון מודלים של ML על סריקות מ-fMRI ושיטות הדמיה אחרות הולכת וגדלה הן פופולריות גם בתחום האבחון הרפואי4 וגם בשחזור תמונות מפעילות המוח.5 אם המודלים האלה מאמנים את המודל מערך הנתונים, עשוי לצמצם את הסבירות לבעיות בעיית השוואות. עם זאת, במיוחד בתחום האבחון, המודל עלולים להסיק מסקנות לא מדויקות לגבי סריקות בודדות חדשות, אם 20% מהמדדים ה'פעילים' ווקסלים הן אכן תוצאות חיוביות מוטעות. שימו לב שאבחון fMRI לאבחון מודלים שמתוארים ב-Li וב-Zhao הם ברמת דיוק של כ-70-85%.

יותר מדי משתנים בניתוח רגרסיה

בעיית ההשוואות המרובות כוללת ניתוח של כמה רגרסיות. ניתוח רגרסיה, או רגרסיה ליניארית, הוא עמוד התווך של מודלים חיזוי מספריים רבים. ניתוח רגרסיה משתמש באחת מכמה שיטות, כמו ריבועים רגילים הכי פחות, מציאת מקדם הרגרסיה שמתאר בצורה הטובה ביותר את ההשפעה של משתנה אחד אחר. חוקרים יכולים לשאול כיצד גיל ועישון משפיעים על שיעורי סרטן הריאות על ידי לייצג כל גורם כמשתנה בניתוח רגרסיה של סרטן לשכיחות בקרב מעשנים ולא מעשנים בגילים שונים. מודל של רגרסיה ליניארית פועל באותה דרך, ולכן פירוש נתונים בהשוואה לסוגים אחרים של מודלים של למידת מכונה. איך למצוא את הרגרסיה מקדמים של המשתנים האלה יתארו את הקשרים הלינאריים המשתנים האלה ואת שיעורי סרטן הריאות.

מפתה לכלול את כל המשתנים האפשריים בניתוח רגרסיה, בראש ובראשונה שמתעלמים ממנו. עם זאת, הוספת יותר מדי משתנים לניתוח רגרסיה מגדילה את הסיכויים שמשתנה לא רלוונטי יופיע מבחינה סטטיסטית משמעותית. אם נוסיף עוד 18 משתנים לא רלוונטיים לניתוח, כמו "סרטים שנצפו" ו'בבעלות כלבים', סביר להניח שאחד מהם משתנים לא רלוונטיים, במקרה בלבד, ייראו קשורים סרטן ריאות גבוה יותר.6

בהקשר של למידת מכונה, המצב האנלוגי נותן יותר מדי תכונות שיכול להוביל התאמת יתר, בין בעיות אחרות.

מסקנות וקבלת החלטות

אחת הדרכים לעקוף חלק ממלכודות החשיבה האלה היא טיפול בסטטיסטיקה ובלמידת מכונה שנגזרים מנתונים סטטיסטיים, בתור כלים לקבלת החלטות, במקום לענות על שאלות. זו הייתה צולם על ידי ג'רזי ניימן ואגון שארפ פירסון.7

במסגרת הזו, נתונים, סטטיסטיקות של נתונים ונגזרות, כולל מודלים של למידת מכונה, הם הכי מתאימים ליצירת תחזיות הסתברותיות, הפרת הצהרות אוניברסליות, שיפור והתמקדות ועזרה בקבלת החלטות. הם לא מתאימים כל כך על פרסום טענות שמאשרות את האמת.

לדברי דייוויד ריטר, החלטות מבוססות על מתאמים של שילובים עצומים כמויות הנתונים צריכות להתבסס על שני גורמים:

  • "ודאות שהקורלציה תחזור באופן מהימן בעתיד," איזה מבוססת גם על התדירות שבה הקורלציה מתרחשת מהעבר, ומקבלים הבנה מדויקת מה הסיבה לקשר הזה.
  • הסיכונים והתועלת שבמשחק.8

באופן דומה, לא כל שאלות המחקר יכולות להתאים היטב לבינה מלאכותית. אנסטסיה ב-Fedyk יש שני קריטריונים לפתרון בעיות שצריך להתאים ל-AI:

  • הבעיה דורשת חיזוי, ולא הבנה של קשרים סיבתיים.
  • הנתונים שמוזנים ל-AI מכילים את כל מה שצריך לדעת על תרגיל; כלומר, הבעיה בפני עצמה.9

קובצי עזר

בנט, קרייג מ., אביגיל א. Baird, Michael B. מילר וג'ורג' ל. וולפורד. "קורלציה עצבית של נקודת מבט בין מינים של אנשים אחרי המורטם סלמון אטלנטי: ארגומנט לתיקון השוואות מרובות. Neuroimage (2009).

קהיר, אלברטו. How Charts Lie: Getting Smarter about Visual Information. ניו יורק: W.W. Norton, 2019.

דבנפורט, תומס ה. "A Predictive Analytics Primer". ב-HBR – מדריך לנתונים Analytics Basics for Managers (Boston: HBR Press, 2018) 81-86.

אלנברג, ירדן. איך לא לטעות: כוחה של החשיבה המתמטית. ניו יורק: פינגווין, 2014.

פדיק, אנטסיה. "האם למידה חישובית יכולה לפתור את הבעיה העסקית שלכם?" ב-HBR Guide to Data Analytics Basics for Managers (מדריך ליסודות ניתוח נתונים עבור מנהלים) (Boston: HBR Press, 2018) 111-119.

גאלו, רונית. "רענון לגבי מובהקות סטטיסטית". ב-HBR – מדריך לנתונים Analytics Basics for Managers (בוסטון: HBR Press, 2018) 121-129.

האף, דארל. איך להסתמך על נתונים סטטיסטיים. ניו יורק: W.W. נורטון, 1954.

Ioannidis, John P.A. "למה רוב הממצאים של המחקרים שפורסמו הם לא נכונים". ב-PLoS Med 2 לא. 8: e124.

ג'ונס, בן. הימנעות ממלכודות נתונים. הובוקן, ניו ג'רזי: Wiley, 2020.

לי, ג'יאנגשו ופייז זאו. "אפליקציות של למידה עמוקה ב-fMRI – עבודת ביקורת" ICBBB 2023 (טוקיו, יפן, 13 עד 16 בינואר 2023): 75-80. https://doi.org/10.1145/3586139.3586150

לינדקוויסט, מרטין א. ואמנדה מג'יה. "זן והאומנות של השוואות מרובות". תרופות פסיכוסומטיות 77 לא. 2 (פברואר-מרץ 2015): 114-125. Duo: 10.1097/PSY.0000000000000148.

ריטר, דיוויד. "מתי לפעול על בסיס מתאם, ומתי לא." במדריך ל-HBR עקרונות בסיסיים בנושא ניתוח נתונים למנהלים (Boston: HBR Press, 2018) 103-109.

טאגאקי, יו ושינג'י נשימוטו. "שחזור תמונות ברזולוציה גבוהה עם מודלים חבויים של דיפוזיה מפעילות המוח האנושית". ועידת IEEE/CVF לשנת 2023 תתחיל ראייה ממוחשבת וזיהוי תבניות (ונקובר, קולומביה, קנדה, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

ווילן, צ'ארלס. נתונים סטטיסטיים עירומים: להסיר את הדאגה מהנתונים. ניו יורק: W.W. נורטון, 2013

Zhoo, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, ינקאי לין, ג'י-רונג וון וג'יוויי האן. "Do Not Make Your LLM an Evaluation Regulatory Cheater". arXiv:2311.01964 cs.CL.


  1. Cairo 182.

  2. Zu et al.

  3. לינדקוויסט ומג'יה.

  4. Li and Zhao 77-78.

  5. טאגאקי ונישימוטו.

  6. גלגלון 221.

  7. Ellenברג 159.

  8. Ritter 104.

  9. פדיק 113.