מבוא ליצירת מערך הנתונים שלך

שלבים ליצירת מערך הנתונים

כדי ליצור את מערך הנתונים (ולפני ביצוע הטרנספורמציה של הנתונים), עליכם:

  1. איסוף הנתונים הגולמיים.
  2. זיהוי מקורות של תכונות ותוויות.
  3. יש לבחור אסטרטגיית דגימה.
  4. לפצל את הנתונים.

השלבים הבאים תלויים מאוד באופן שבו מגדירים את הבעיה בלמידת המכונה (ML). כדאי להשתמש במסגרת הבדיקה העצמית שבהמשך כדי לרענן את הזיכרון לגבי מסגור בעיות ולבדוק את ההנחות שלכם בנוגע לאיסוף הנתונים.

בדיקה עצמית של מסגור בעיות ומושגים של איסוף נתונים

כדי להשיב על השאלה הבאה, לוחצים על החץ הרצוי:

אתם נמצאים בפרויקט חדש של למידה חישובית, שעומד לבחור את התכונות הראשונות. כמה פיצ'רים כדאי לבחור?
בוחרים תכונה אחת עד 3 תכונות שנראה שעוצמת החיזוי שלהן חזקה.
מומלץ להתחיל את תהליך איסוף הנתונים רק באמצעות תכונה אחת או שתי תכונות. זה יעזור לכם לוודא שמודל ה-ML פועל כצפוי. כמו כן, כאשר בונים בסיס של שתי תכונות, ניתן להרגיש שממשיכים להתקדם!
בוחרים 4-6 תכונות שנראות כמו עוצמת חיזוי חזקה.
בסופו של דבר, ייתכן שייעשה שימוש בתכונות רבות, אבל עדיף להתחיל עם פחות תכונות. בדרך כלל, פחות תכונות גורמות לסיבוכים מיותרים.
אפשר לבחור כמה שיותר תכונות כדי להתחיל לראות אילו תכונות מניבות את עוצמת החיזוי החזקה ביותר.
כדאי להתחיל בקטן. כל תכונה חדשה מוסיפה מימד חדש לקבוצת נתוני האימון. כשהמאפיינים גדלים, הנפח של המרחב המשותף גדל כל כך מהר עד שנתוני האימון הזמינים הולכים וגדלים. ככל שהנתונים שלך חסכניים יותר, כך קשה יותר למודל ללמוד את הקשר בין התכונות החשובות לבין התווית. תופעה זו נקראת "קללת המימדיות."
חברך, יוסי, שמח על התוצאות הראשוניות של ניתוח הנתונים הסטטיסטיים שלו. הוא אומר שהנתונים מראים שיש קשר חיובי בין מספר ההורדות של האפליקציה למספר החשיפות של ביקורות האפליקציה. אבל הוא לא בטוח אם היו מורידים אותה בלי לראות את הביקורת. איזו תגובה תהיה הכי שימושית לסאם?
אפשר לערוך ניסוי כדי להשוות בין ההתנהגות של משתמשים שלא ראו את הביקורת לבין משתמשים דומים.
תשובה נכונה! אם יוסי מגלה שמשתמשים שראו את הביקורת החיובית צפויים להוריד את האפליקציה בהשוואה למשתמשים שלא הורידו אותה, יש לו ראיות סבירות להצביע על כך שהביקורת החיובית מעודדת אנשים להוריד את האפליקציה.
לתת אמון בנתונים. ברור שהסיבה לכך היא שמשתמשים מורידים את האפליקציה.
תשובה לא נכונה. התגובה הזו לא תוביל את סאם לכיוון הנכון. לא ניתן לקבוע את הסיבה להשפעה רק מנתוני תצפית. אמא מזהה קורלציה (כלומר, תלות סטטיסטית בין המספרים) שתעיד על סיבתיות או שלא. אין לנתח את הניתוחים לפי קשרים של קשרים מלאכותיים.