מחבר: פטריק ריילי
תודה מיוחדת: דיאן טנג, רהאן חאן, אליזבת טאקר, אמיר נג'מי, הילארי האצ'ינסון, ג'ואל דארנאואר, דייל ניל, אנר בן-ארטי, סנדרס קליינפלד, דיוויד ווסטברוק ובארי רוזנברג.
היסטוריה
- עדכון משמעותי אחרון: יוני 2019
- גרסה קודמת של חלק מהתוכן הזה הופיעה ב בלוג הלא רשמי של Google Data Science: אוקטובר 2016
סקירה
הסקת מהימנות ותובנות מערימת נתונים היא משימה רבת עוצמה, שעלולה לגרום לשגיאות. מנתחי הנתונים הטובים ביותר ומהנדסי התוכנה שמתמחים בנתונים מפתחים מוניטין של מתן הצהרות אמינות על סמך הנתונים. אבל מה הם עושים שמעניק להם אמינות? הרבה פעמים שומעים תיאורי תואר כמו זהירות ושיטתי, אבל מה בפועל האנליסטים הזהירים והשיטתיים ביותר עושים?
זו לא שאלה טריוויאלית, בייחוד בגלל סוג הנתונים שאנחנו אוספים ב-Google באופן קבוע. בדרך כלל אנחנו עובדים עם מערכי נתונים גדולים מאוד, וגם קבוצות נתונים עשירות מאוד. כלומר, לכל שורת נתונים יש בדרך כלל מאפיינים רבים. כשמשלבים את המדד הזה עם רצפי האירועים הזמניים של משתמש נתון, יש מספר עצום של דרכים להסתכל על הנתונים. ניתן להשוות זאת לניסוי בפסיכולוגיה אקדמית טיפוסית, שבו לחוקר חשוב לבחון כל נקודה על הגרף. הבעיות הנובעות ממערכי הנתונים הגדולים והגדולים שלנו שונות מאוד מאלה שנתקלים בהן ברוב ההיסטוריה של העבודה המדעית.
המאמר הזה מסכם את הרעיונות והטכניקות שבהם אנליסטים זהירים משתמשים באופן שיטתי בקבוצות נתונים גדולות וממדיות. המסמך הזה מתמקד בנתונים מיומנים ומניתוחים ניסיוניים, אבל הרבה מהשיטות האלה רלוונטיות באופן נרחב יותר.
שאר המסמך מורכב משלושה חלקים שעוסקים בהיבטים שונים של ניתוח נתונים:
- טכני: רעיונות וטכניקות למניפולציה של הנתונים ולבדיקה שלהם.
- תהליך: המלצות לגבי הגישה לנתונים, אילו שאלות לשאול ומה כדאי לבדוק.
- Mindset: איך לעבוד עם אחרים ולהעביר תובנות.
טכני
בוא נבחן כמה טכניקות לבחינת הנתונים שלך.
בחינת ההפצות
רוב בעלי המקצוע משתמשים במדדי סיכום (למשל, ממוצע, חציון, סטיית תקן וכן הלאה) כדי להסביר על ההתפלגויות. עם זאת, בדרך כלל צריך לבחון ייצוגי התפלגות הרבה יותר עשירים על ידי יצירת היסטוגרמות, פונקציות התפלגות מצטברת (CDF), דיאגרמת הקונטילים (Q-Q) וכו'. הייצוגים העשירים האלה מאפשרים לזהות תכונות חשובות של הנתונים, כמו התנהגות מרובת מצבים או קבוצה משמעותית של חריגים.
מביאים בחשבון את יוצאי הדופן
בדקו חריגים בקפידה כי הם יכולים להיות קנריים במכרה הפחם, שמעידים על בעיות בסיסיות יותר בניתוח. אין בעיה להחריג חריגים מהנתונים או לאחד אותם לקטגוריה 'חריגה', אבל חשוב לוודא שאתם יודעים למה הנתונים הגיעו בקטגוריה הזו.
לדוגמה, בחינת השאילתות עם מספר הקליקים הנמוך ביותר עלולה לחשוף קליקים על רכיבים שאתה לא מצליח לספור. בחינת השאילתות עם מספר הקליקים הגבוה ביותר עלולה לחשוף קליקים שלא אמורים לספור. מצד שני, יכולים להיות חריגים שלעולם לא תוכלו להסביר, כך שתצטרכו לשים לב כמה זמן אתם מקדישים למשימה הזו.
כדאי להוסיף רעש
אקראיות קיימת והיא מטעה אותנו. יש אנשים שחושבים, "ל-Google יש כל כך הרבה נתונים, הרעש נעלם". זה פשוט לא נכון. לכל מספר או סיכום של הנתונים שאתם מייצרים צריך להיות מושג נלווה למהימנות שלכם באומדן הזה (באמצעות מדדים כמו רווח בר-סמך וp-values).
עיון בדוגמאות
בכל פעם שאתם מפיקים קוד ניתוח חדש, אתם צריכים לראות דוגמאות מנתוני הבסיס ואיך הקוד מפרש את הדוגמאות האלה. כמעט בלתי אפשרי ליצור קוד תקין בכל מורכבות בלי לבצע את השלב הזה. הניתוח מקצר פרטים רבים מהנתונים הבסיסיים כדי ליצור סיכומים שימושיים. אם תבחנו את המורכבות המלאה של כל אחת מהדוגמאות, תוכלו להיות בטוחים שהסיכום שלכם סביר.
חשוב לדגום את הדוגמאות האלה:
- אם אתם מסווגים את הנתונים הבסיסיים, תוכלו לראות דוגמאות ששייכות לכל כיתה.
- אם זו כיתה גדולה יותר, בדקו יותר דוגמאות.
- אם אתם מחשבים מספר (למשל, זמן טעינה של דף), הקפידו לבחון דוגמאות קיצוניות (למשל, המהירות המהירה והאיטית ביותר ב-5%, האם אתם יודעים איך נראית ההתפלגות, נכון?) כמו גם נקודות לאורך מרחב המדידות.
פילוח הנתונים
חיתוך פירושו הפרדת הנתונים לקבוצות משנה ובחינת ערכי מדדים של כל קבוצת משנה בנפרד. בדרך כלל אנחנו מנתחים מאפיינים כמו דפדפן, מיקום, דומיין, סוג מכשיר וכו'. אם סביר להניח שהתופעה הבסיסית תפעל באופן שונה בקבוצות משנה, תצטרכו לפלח את הנתונים כדי לוודא אם זה אכן המצב. גם אם לא ציפיתם שהחיתוך יניב תוצאות שונות, מומלץ לבחון כמה פרוסות כדי לקבוע עקביות פנימית. כך תוכלו להיות בטוחים יותר שאתם מודדים את התוצאה הנכונה. במקרים מסוימים, פלח מסוים עשוי לכלול נתונים בעייתיים, אינטראקציית משתמש שבורה או שבמהלכו הוא שונה במהותו.
בכל פעם שמפלחים נתונים כדי להשוות בין שתי קבוצות (למשל, ניסוי לעומת בקרה, או אפילו "זמן א'" לעומת "זמן ב'"), עליכם להיות מודעים לתנודות בתמהיל. שינוי מיקס הוא מצב שבו כמות הנתונים בפרוסות בכל קבוצה משתנה. הפרדוקס של סימפסון וסוגים נוספים של בלבול יכולים לגרום לבלבול. באופן כללי, אם כמות הנתונים היחסית בפרוסה זהה בין שתי הקבוצות, תוכלו לבצע השוואה בטוחה.
חשוב לשים לב למשמעות מעשית
כשיש כמות גדולה של נתונים, מפתה להתמקד אך ורק במובהקות סטטיסטית או להתמקד בפרטים של כל פיסת נתונים. אך עליכם לשאול את עצמכם: "גם אם זה נכון שערך X הוא 0.1% יותר מהערך Y, האם זה משנה?" זה עשוי להיות חשוב במיוחד אם אתם לא מצליחים להבין/לסווג חלק מהנתונים. אם אתם לא מצליחים להבין מחרוזות מסוימות של סוכן-משתמש ביומנים, חשוב לוודא שהן מייצגות 0.1% או 10% מהנתונים. יש הבדל גדול בכמות הנתונים שצריך לחקור.
לחלופין, לפעמים יש לכם נפח קטן של נתונים. שינויים רבים לא ייראו בעלי מובהקות סטטיסטית, אבל זה שונה מטענה שהשינויים האלה "ניטרליים". עליכם לשאול את עצמכם "מה הסבירות שעדיין יש שינוי משמעותי?"
בדיקה של עקביות לאורך זמן
כמעט תמיד כדאי לנסות לפלח נתונים לפי יחידות זמן, מכיוון שהפרעות רבות בנתונים הבסיסיים מתרחשות ככל שהמערכות שלנו מתפתחות לאורך הזמן. (אנו משתמשים לעתים קרובות בימים, אך יחידות זמן אחרות עשויות להיות שימושיות גם). במהלך ההשקה הראשונית של תכונה או של איסוף נתונים חדש, בעלי המקצוע בדרך כלל בודקים היטב שהכול פועל כמצופה. עם זאת, עם הזמן עלולות להתרחש תקלות רבות או התנהגות בלתי צפויה.
גם אם יום מסוים או קבוצת ימים מסוימת חורגים מהחריגה, לא צריך למחוק את הנתונים התואמים. משתמשים בנתונים בתור 'פתיעה' כדי לקבוע את הסיבה להבדלים באותו יום או בימים מסוימים, לפני שמוחקים אותם.
בחינת הנתונים היומיים מאפשרת גם להבין את השינויים בנתונים שבסופו של דבר יובילו לרווח בר-סמך או לטענות לגבי מובהקות סטטיסטית. בדרך כלל, הנתונים האלה לא אמורים להחליף חישוב קפדני של רווח בר-סמך, אבל לעיתים קרובות עם שינויים גדולים אפשר לראות שהם יהיו בעלי מובהקות סטטיסטית רק מהתרשימים של היום-ליום.
אישור הסינון וספירתו
כמעט כל ניתוח נתונים גדול מתחיל בסינון נתונים בשלבים שונים. אולי תרצו לבדוק רק משתמשים בארה"ב, חיפושים באינטרנט או חיפושים שכוללים מודעות. בכל מקרה, צריך:
- לאשר ולציין בבירור איזה סינון אתם מבצעים.
- לספור את כמות הנתונים שמסוננים בכל שלב.
לעיתים קרובות, הדרך הטובה ביותר לעשות זאת היא לחשב את כל המדדים, גם באוכלוסייה שרוצים להחריג. לאחר מכן אפשר לבחון את הנתונים האלה כדי לענות על שאלות, כמו "איזה חלק מהשאילתות הוסר מסינון הספאם?" (בהתאם לסיבת הסינון, לא תמיד ניתן יהיה לבצע ניתוח כזה).
ליחסים צריכים להיות מונה ומכנים ברורים
המדדים המעניינים ביותר הם יחסים של מדדים בסיסיים. לעיתים קרובות, הגדרות סינון או אפשרויות אחרות להצגת נתונים מוסתרות בהגדרות המדויקות של המונה והמכנה. לדוגמה, מה המשמעות של 'שאילתות / משתמש' בפועל?
- שאילתות / משתמשים עם שאילתה
- שאילתות / משתמשים שביקרו ב-Google היום
- שאילתות / משתמשים עם חשבון פעיל (כן, עליי להגדיר פעיל)
הקפדה על תוכן ברור במקום הזה יכולה למנוע בלבול אצלך ולאחרים.
עוד מקרה מיוחד הוא מדדים שניתן לחשב רק על חלק מהנתונים שלכם. לדוגמה, "זמן ללחוץ" בדרך כלל משמעותו "זמן ללחוץ בהתחשב בכך שהיה קליק". בכל פעם שבוחנים מדד כזה, צריך לאשר את הסינון ולחפש שינוי בסינון בין הקבוצות שמשווים.
התהליך
בקטע הזה נסביר איך לגשת לנתונים, אילו שאלות כדאי לשאול לגבי הנתונים ומה צריך לבדוק.
אימות, תיאור והערכה נפרדים
לדעתי, ניתוח הנתונים כולל שלושה שלבים שקשורים זה לזה:
- אימות1: האם לדעתי הנתונים עקביים, האם הם נאספו כראוי ושהם מייצגים את מה שאני חושב שהם עושים?
- תיאור: מה הפרשנות למטרה של הנתונים האלה? לדוגמה, "משתמשים מבצעים פחות שאילתות המסווגות כ-X", "בקבוצת הניסוי, הזמן בין X ל-Y גדול ב-1%" ו"פחות משתמשים עוברים לדף הבא של התוצאות".
- הערכה: לפי התיאור, האם הנתונים מצביעים על כך שמשהו טוב קורה למשתמשים, ל-Google או לעולם?
תהליך ההפרדה בין השלבים האלה יאפשר לכם להגיע להסכמה עם אחרים בקלות רבה יותר. התיאור צריך לכלול פרטים שכולם יכולים להסכים עליהם. ככל הנראה, ההערכה תפתח הרבה יותר דיון. אם לא תפרידו בין התיאור לבין ההערכה, סביר יותר שתראו רק את הפרשנות של הנתונים שרציתם לראות. מעבר לכך, בדרך כלל קשה יותר לבצע הערכה כי יש צורך בהשקעה משמעותית כדי לקבוע את הערך הנורמטיבי של מדד, בדרך כלל באמצעות השוואות קפדניות לתכונות ומדדים אחרים.
השלבים האלה לא מתקדמים באופן לינארי. כשאתם מעיינים בנתונים, אתם עשויים לעבור בין השלבים, אבל בכל שלב חשוב להיות ברור באיזה שלב אתם נמצאים.
אישור הגדרת הניסוי ואיסוף הנתונים
לפני שמציגים נתונים כלשהם, חשוב להבין את ההקשר שבו הנתונים נאספו. אם הנתונים מגיעים מניסוי, צריך לבחון את ההגדרות שלו. אם המקור נוצר על ידי אינסטרומנטציית לקוח חדשה, עליכם לוודא שאתם לפחות מבינים איך הנתונים נאספים. יכול להיות שזיהיתם הגדרות חריגות או שגויות או הגבלות אוכלוסייה (למשל, נתונים חוקיים רק ב-Chrome). כל מה שכדאי להכיר יכול לעזור לכם ליצור ולאמת תיאוריות מאוחר יותר. כמה דברים שחשוב להביא בחשבון:
- אם הניסוי פועל, נסו אותו בעצמכם. אם אינכם מצליחים לעשות זאת, לפחות מומלץ שתעיינו בצילומי מסך או בתיאורים של ההתנהגות.
- בדקו אם היה משהו חריג בטווח הזמן שבו הניסוי פעל (חגים, השקות גדולות וכו').
- להבין אילו אוכלוסיות של משתמשים עברו את הניסוי.
בודקים מה לא צריך להשתנות
במהלך השלב "תיקוף", לפני שתענו בפועל על השאלה שמעניינת אתכם (למשל, "האם הוספת תמונה של פנים הגדילה או הקטינה את הקליקים?"), כדאי לשלול כל שונות אחרת בנתונים שעשויה להשפיע על הניסוי. למשל:
- האם מספר המשתמשים השתנה?
- האם המספר הנכון של השאילתות שהושפעו הופיע בכל קבוצות המשנה?
- האם שיעורי השגיאות השתנו?
השאלות האלה הגיוניות גם לצורך השוואות של ניסויים ובקרה, וגם לצורך בחינת מגמות לאורך זמן.
רגילה ראשונה, שנייה בהתאמה אישית
כשבוחנים תכונות חדשות ונתונים חדשים, מפתה במיוחד לעבור ישירות למדדים החדשים או המיוחדים של התכונה החדשה. עם זאת, תמיד צריך להסתכל קודם על מדדים סטנדרטיים, גם אם הם צפויים להשתנות. לדוגמה, כאשר מוסיפים בלוק אוניברסלי חדש לדף, חשוב להבין את ההשפעה על מדדים סטנדרטיים כמו "קליקים על תוצאות באינטרנט", לפני שתעיינו במדדים המותאמים אישית לגבי התוצאה החדשה הזו.
מדדים רגילים מאומתים בצורה טובה יותר ובדרך כלל הם נכונים יותר ממדדים מותאמים אישית. אם הערכים המותאמים אישית לא מתאימים למדדים הרגילים, סביר להניח שהמדדים המותאמים אישית שגויים.
מודדים פעמיים או יותר
במיוחד אם אתם מנסים לתעד תופעה חדשה, נסו למדוד את אותו דבר בסיסי בכמה דרכים. לאחר מכן צריך לקבוע אם המדידות המרובות האלה עקביות. באמצעות מספר מדידות אפשר לזהות באגים במדידה או בקוד הרישום, תכונות לא צפויות של הנתונים הבסיסיים או שלבי סינון חשובים. אפילו יותר טוב אם תוכלו להשתמש במקורות נתונים שונים למדידות.
חיפוש יכולת שחזור
גם חיתוך וגם עקביות לאורך זמן הם דוגמאות ספציפיות לבדיקת יכולת שחזור. אם תופעה מסוימת חשובה ומשמעותית, צריך לראות אותה באוכלוסיות שונות של משתמשים ובזמנים שונים. אבל כדי לאמת את יכולת השחזור צריך יותר מביצוע שתי הבדיקות האלה. אם אתם בונים מודלים של הנתונים, אתם רוצים שהמודלים האלה יהיו יציבים בכל הפרעות קטנות בנתונים הבסיסיים. על סמך טווחי זמן שונים או דגימות משנה אקראיות של הנתונים, תוכל לדעת עד כמה המודל הזה אמין/ניתן לשחזור.
אם לא ניתן לשחזר את המודל, סביר להניח שאתם לא מתעדים משהו מהותי לגבי התהליך הבסיסי שיצר את הנתונים.
בדיקת עקביות למדידות קודמות
לעיתים קרובות תחושב מדד שדומה לדברים שנספרו בעבר. יש להשוות את המדדים למדדים שדווחו בעבר, גם אם המדידות האלה מתייחסות לאוכלוסיות שונות של משתמשים.
לדוגמה, אם אתם בודקים את תנועת השאילתות באוכלוסייה מיוחדת ואתם מודדים שזמן הטעינה הממוצע של דף הוא 5 שניות, אך ניתוחי עבר לגבי כל המשתמשים נתנו זמן טעינה ממוצע של 2 שניות לדף, עליכם לחקור את הנושא. יכול להיות שהמספר שלכם מתאים לאוכלוסייה הזו, אבל עכשיו צריך לעשות יותר מאמצים כדי לאמת אותו.
אתם לא צריכים לקבל הסכמה מדויקת, אבל אתם אמורים להיות באותו מגרש בייסבול. אם התשובה היא לא, עליכם להניח שאתם טועים עד שתהיו בטוחים בעצמכם. רוב הנתונים המפתיעים יתבררו כשגיאה, ולא כתובנה חדשה נפלאה.
יש להחיל מדדים חדשים קודם על נתונים או תכונות ישנים
אם יצרתם מדדים חדשים (למשל, על ידי איסוף של מקור נתונים חדש) ותנסו ללמוד משהו חדש, לא תדעו אם המדד החדש נכון. בעזרת מדדים חדשים, יש להחיל אותם קודם על תכונה ידועה או על נתונים מוכרים. לדוגמה, אם יש לכם מדד חדש לשביעות רצון המשתמשים, עליכם לוודא שהוא אומר לכם שהתכונות הטובות ביותר עוזרות לכם לשפר את שביעות הרצון. אם יש לך מדד חדש למקום שבו המשתמשים מפנים את תשומת הלב שלהם לדף, ודאו שהוא תואם למה שאנחנו יודעים ממחקרים של מעקב אחר תנועת העין או של המדרג לגבי האופן שבו תמונות משפיעות על תשומת הלב של הדף. זה מספק אימות כשאתם לומדים משהו חדש.
העלאת השערות וחיפוש הוכחות
בדרך כלל, ניתוח נתונים של בעיה מורכבת הוא איטרטיבי.2 תגלו חריגות, מגמות או תכונות אחרות של הנתונים. באופן טבעי, תפתחו תיאוריות שיסבירו את הנתונים האלה. לא סתם לפתח תיאוריה ולהצהיר שהיא נכונה. חפשו ראיות (בתוך הנתונים או מחוצה להם) כדי לאשר/לדחות את התיאוריה הזו. למשל:
- אם רואים משהו שנראה כמו מגמת למידה, בדקו אם הוא מתבטא במידה הרבה ביותר בקרב משתמשים בתדירות גבוהה.
- אם לדעתכם חריגה נובעת מההשקה של תכונות מסוימות, חשוב לוודא שהאוכלוסייה שאליה התכונה הושקה היא היחידה שמושפעת מהחריגה. אפשרות אחרת היא לוודא שהיקף השינוי תואם לציפיות של ההשקה.
- אם שיעורי הגידול במספר המשתמשים משתנים בלוקאל מסוים, כדאי לנסות למצוא מקור חיצוני שמאמת את שיעור השינוי של אוכלוסיית המשתמשים.
לניתוח נתונים טוב יהיה סיפור לספר. כדי לוודא שזה הסיפור הנכון, אתם צריכים לספר את הסיפור לעצמכם, ואז לחפש הוכחות לכך. דרך אחת לעשות זאת היא לשאול את עצמך, "אילו ניסויים כדאי לי להריץ כדי לאמת/לבטל את התוקף של הסיפור שאני מספר?" גם אם אי אפשר/לא לבצע את הניסויים האלה, זה יכול לתת לכם רעיונות לאימות בעזרת הנתונים שיש לכם.
החדשות הטובות הן שהתיאוריות והניסויים האפשריים האלה יכולים להוביל לקווי חקירה חדשים שחורגים מהניסיון ללמוד על תכונה מסוימת או נתונים מסוימים. לאחר מכן תוכל להבין לא רק את הנתונים האלו, אלא גם להפיק מדדים וטכניקות חדשים לכל סוגי הניתוחים העתידיים.
היתרונות של ניתוח מעמיק הודות לאיטרציה מקצה לקצה
כשמבצעים ניתוח מחקרי, מומלץ לבצע כמה שיותר איטרציות לניתוח כולו. בדרך כלל תצטרכו לבצע כמה שלבים של איסוף אותות, עיבוד, יצירת מודלים וכו'. אם השלב הראשון של האותות הראשוניים מושלם, אתם מפספסים הזדמנויות לבצע איטרציות נוספות באותו פרק זמן. בנוסף, כשמסתכלים בסוף על הנתונים, אתם עשויים לגלות תגליות שישנו את הכיוון שלכם. לכן, בשלב הראשון מומלץ לא להתמקד בשלמות, אלא להשיג משהו הגיוני לאורך כל הדרך. הוסיפו הערות לעצמכם וציינו דברים כמו שלבי סינון ובקשות יוצאות דופן או בלתי ניתנות לניתוח, אבל אל תבזבזו זמן בניסיון להיפטר מכולן בתחילתו של ניתוח מחקרי.
חשוב לשים לב למשוב
בדרך כלל אנחנו מגדירים מדדים שונים להצלחת המשתמשים. לדוגמה, האם המשתמשים לחצו על תוצאה? אם לאחר מכן מזינים את הנתונים האלה במערכת (מה שאנחנו עושים בפועל בכמה מקומות), אתם יוצרים הרבה הזדמנויות לבלבול בין הערכות.
לא ניתן להשתמש במדד שמוזן למערכת שלך כבסיס להערכת השינוי. אם אתם מציגים יותר מודעות שמניבות יותר קליקים, לא תוכלו להשתמש ב"יותר קליקים" כבסיס להחלטה שהמשתמשים מרוצים יותר, על אף שמשמעות הערך "יותר קליקים" היא לעיתים קרובות "מרוצים" יותר. בנוסף, לא כדאי אפילו לפלח את המשתנים שהזנתם בחזרה וביצעתם שינויים בהם, כי התוצאה תהיה שינויים מעורבים שיהיה קשה או בלתי אפשרי להבין.
הרגלי חשיבה
בקטע הזה מוסבר איך לעבוד עם אחרים ולהעביר תובנות.
ניתוח הנתונים מתחיל בשאלות, לא בנתונים או בשיטה
תמיד יש מוטיבציה לנתח נתונים. ניסוח הצרכים שלכם כשאלות או כהשערות עוזר לוודא שאתם אוספים את הנתונים שאתם צריכים לאסוף, וחושבים על הפערים האפשריים בנתונים. כמובן, השאלות שתשאלו צריכות להשתנות כאשר בוחנים את הנתונים. אבל ניתוח נתונים בלי שאלה יהיה חסר מטרה.
הימנעו מאיתור טכניקה מועדפת כלשהי ואיתור רק את קטעי הבעיות שהשיטה הזו עובדת עליהם. שוב, יצירת שאלות ברורות תעזור לכם להימנע מהמלכוד הזה.
היו גם ספקנים וגם אלופים
תוך כדי עבודה עם נתונים, עליכם להיות אלופים בתובנות שאתם צוברים, וגם ספקנים לגביהם. אני מקווה שתגלו תופעות מעניינות בנתונים שבהם אתם מסתכלים. כשאתם מזהים תופעה מעניינת, שאלו את עצמכם את השאלות הבאות:
- אילו נתונים נוספים אפשר לאסוף כדי להראות עד כמה זה מדהים?
- מה אוכל למצוא שיבטל את תוקף ההצעה הזו?"
במיוחד במקרים שבהם אתם מבצעים ניתוח נתונים למישהו שבאמת רוצה לקבל תשובה מסוימת (לדוגמה, 'התכונה שלי מדהימה!'), עליכם להיות ספקנים כדי להימנע משגיאות.
מתאם != סיבתיות
בעת העלאת תיאוריות לגבי נתונים, לעיתים קרובות אנחנו רוצים לטעון ש"X גורם ל-Y" - לדוגמה, "הדף נהיה איטי יותר, גרם למשתמשים ללחוץ פחות". גם xkcd יודעים שאי אפשר פשוט לבסס סיבתיות בגלל מתאם. אם תשקלו איך לאמת את תורת הסיבתיות, בדרך כלל תוכלו לקבל מושג טוב לגבי האמינות של תיאוריית הסיבתיות.
לפעמים אנשים מנסים לשמור על קורלציה בעלת משמעות, על ידי טענה שגם אם אין קשר סיבתי בין א' ל-ב', חייב להיות משהו בבסיס המקריות, כדי שאות אחד יוכל לשמש כאינדיקטור טוב או לשרת אחר. התחום הזה מסוכן לבעיות מרובות בבדיקת השערות. כפי ש-xkcd יודע גם, לאחר מספיק ניסויים ומספיק מאפיינים, חלק מהאותות יתאימו לניסוי ספציפי. זה לא אומר שאותם אותות יתאימו בעתיד, לכן יש לכם את אותה מחויבות לשקול תיאוריית סיבתיות, למשל "יש השפעה נסתרת C שגורמת גם ל-A וגם ל-B", כדי שתוכלו לנסות לבדוק עד כמה זה סביר.
לעיתים קרובות, מנתחי נתונים צריכים לקבל תשובות לשאלות הסיבתיות האלה בשביל האנשים שרוצים לצרוך את הנתונים. צריך להבהיר לצרכנים האלה מה אפשר ומה אסור לומר על סיבתיות.
חשוב לשתף קודם עם אפליקציות להשוואה, אחר כך צרכנים חיצוניים
בנקודות הקודמות הציעו כמה דרכים לגרום לכם לבצע את הסוגים הנכונים של בדיקת תקינות ואימות. אבל שיתוף עם קולגות הוא אחת הדרכים הטובות ביותר להכריח את עצמכם לעשות את כל הפעולות האלה. עמיתים מיומןיים יכולים לתת משוב שונה מבחינה איכותית מזה של צרכני הנתונים שלכם, במיוחד כי לצרכנים בדרך כלל יש סדר יום. אפליקציות להשוואה יכולות להיות שימושיות במספר נקודות במהלך הניתוח. בשלב מוקדם תוכלו לקבל מידע על דברים שהעמיתים שלכם יודעים, הצעות לדברים למדידה ומחקרים קודמים בנושא הזה. לקראת סיום, עמיתים טובים מאוד בזיהוי נקודות מוזרות, חוסר עקביות או בלבול אחר.
באופן אידיאלי, כדאי לקבל משוב מעמית שיודע משהו על הנתונים שאתם בוחנים, אבל גם לעמית שיש לו ניסיון כללי בלבד בניתוח נתונים חשוב מאוד.
לצפות ולקבל את הבורות והטעויות
יש הרבה מגבלות על מה שאפשר ללמוד מהנתונים. נייט סילבר (Nate Silver) מצביע על טיעון בולט בנושא The Signal and the Noise – רק על ידי הכרת מגבלות הוודאות שלנו, נוכל להתקדם בפיתוח חיזוי טוב יותר. מודעות בבורות היא כוח שלא בדרך כלל מתוגמל באופן מיידי. זו הרגשה רעה מבחינתכם, אבל זה יתרון גדול לכם ולצוות שלכם בטווח הארוך. זה מרגיש אפילו יותר גרוע אם עושים טעות ומגלים אותה מאוחר יותר (או אפילו מאוחר מדי!), אבל יזמתם את הטעות והתבטאו בכך בצורה יזומה. המשמעות היא אמינות והשפעה.
סגירת המחשבות
רוב העבודה לביצוע ניתוח נתונים טוב לא מוצגת מיד לצרכנים. סביר להניח שהעובדה שבדקתם בקפידה את גודל האוכלוסייה ואימתת שההשפעה הייתה עקבית בכל הדפדפנים, לא תגיע למודעות של האנשים שמנסים לקבל החלטות על סמך הנתונים האלה. זה גם מסביר למה ניתוח נתונים טוב נמשך יותר זמן ממה שנראה לרוב האנשים (במיוחד כשהם רואים רק את הפלט הסופי). חלק מהתפקיד שלנו כאנליסטים הוא ללמד צרכנים בהדרגה תובנות מבוססות-נתונים לגבי השלבים האלה ולמה הם חשובים.
הצורך לבצע את כל השינויים והניתוחים של הנתונים גם קובע את הדרישות לשפה ולסביבה טובה של ניתוח נתונים. יש לנו הרבה כלים שיעזרו לנו לבחון את הנתונים. שפות שונות וכלים שונים מתאימים יותר לשיטות השונות שעליהן דיברנו למעלה. בחירת הכלי המתאים היא מיומנות חשובה למנתח נתונים. לא כדאי להגביל את היכולות של הכלי שאתם הכי מרגישים בנוח איתו. התפקיד שלכם הוא לספק תובנות אמיתיות, ולא להשתמש בכלי מסוים.
-
הכלי הזה נקרא לפעמים 'ניתוח נתונים ראשוני'. אפשר לעיין ב מאמר ב-Wikipedia על ניתוח נתונים ↩
-
מבחינה טכנית, הניתוח צריך להיות חזרתי רק אם אתם מבצעים ניתוח מחקרי, ולא ניתוח מאשר.↩