הכנת נתונים והנדסת תכונות בלמידת מכונה

למידה חישובית עוזרת לנו למצוא דפוסים בנתונים, ואנחנו משתמשים בדפוסים האלה כדי ליצור תחזיות לגבי נקודות נתונים חדשות. כדי שהחיזויים יגיעו כמו שצריך, אנחנו צריכים ליצור את מערך הנתונים ולשנות את הנתונים בצורה נכונה. הקורס עוסק בשני שלבים עיקריים. נראה גם איך השיקולים באימון/הצגה באים לידי ביטוי בשלבים האלה.

פרויקט של למידת מכונה שמאורגנים בחמישה שלבים. 1. הגדרה של בעיית למידת מכונה והצעת פתרון. 2. בונים את קבוצת הנתונים. 3. שינוי נתונים.
4. אימון מודל. 5. משתמשים במודל כדי ליצור תחזיות.  הקורס עוסק בבניית מערך נתונים ובטרנספורמציה של נתונים.

דרישות מוקדמות

בקורס הזה ההנחה היא שיש לכם:

למה כדאי ללמוד על הכנת נתונים ועל הנדסת תכונות?

ניתן לחשוב על הנדסת תכונות כעל מודל שעוזר להבין את מערך הנתונים באותו אופן שבו משתמשים בו. לעיתים קרובות תלמידים לומדים קורס של למידת מכונה שמתמקד בבניית מודלים, אבל בסופו של דבר הם משקיעים הרבה יותר זמן בהתמקדות בנתונים.

כשבודקים את השאלה הבאה, לוחצים על החץ הרצוי:

אם היה לך צורך לתעדף שיפור באחד מהתחומים הבאים בפרויקט של למידת המכונה, מה תהיה ההשפעה הגדולה ביותר?
האיכות והגודל של הנתונים
הנתונים חשובים יותר. אם תעדכנו את אלגוריתם הלמידה שלכם או את ארכיטקטורת המודלים שלכם, יכול להיות שתלמדו סוגים שונים של דפוסים, אבל אם הנתונים יהיו שגויים, בסופו של דבר תיצרו פונקציות שמתאימות לדברים שגויים. האיכות והגודל של קבוצת הנתונים חשובים הרבה יותר מאשר האלגוריתם שבו השתמשתם.
שימוש באלגוריתם האופטימיזציה האחרון
ללא ספק ניתן לראות שיפור כלשהו בדחיפה של כלי האופטימיזציה, אבל לא תהיה לזה השפעה משמעותית על המודל שלך כמו על פריט אחר ברשימה זו.
רשת עמוקה יותר
אמנם רשת עמוקה יותר עשויה לשפר את המודל שלך, אבל ההשפעה לא תהיה משמעותית באותה מידה כמו פריט אחר ברשימה הזו.
פונקציית הפסד חכמה יותר
סגירה! פונקציית אובדן טובה יותר יכולה לשפר את הביצועים שלך, אבל היא עדיין נמצאת במקום שני ברשימה.

למה חשוב לאסוף קבוצת נתונים טובה?

Google Translate

"...אחת מההתקדמות הטובה ביותר שלנו על איכות תמונה, כי תרגום מכונה עצבי הוא זיהוי קבוצת המשנה הטובה ביותר של נתוני ההדרכה שלנו"

- מהנדס תוכנה, Google Translate

לצוות Google Translate יש נתוני הדרכה רבים יותר ממה שהם יכולים להשתמש בהם. במקום לשפר את המודל, הצוות הרוויח יותר באמצעות שימוש בתכונות הטובות ביותר בנתונים שלו.

 

 

 

"...ברוב המקרים שניסיתי לנפות באגים באופן ידני בשגיאות שנראות מעניינות, ניתן היה לאתר אותן חזרה בבעיות שקשורות לנתוני האימון." - מהנדסת תוכנה, Google Translate

לרוב, שגיאות ש"נראים מעניינות" נגרמות על ידי הנתונים. נתונים שגויים עלולים לגרום למודל שלכם ללמוד את הדפוסים השגויים, בלי קשר לטכניקות של בניית המודל שתנסו.

 

 

פרויקט רטינופתיה של מוח

פרויקט הרטינופתיה של Google Brain השתמש בארכיטקטורת רשת נוירונים, המכונה גם Incpttion, על מנת לסווג מחלות על ידי סיווג התמונות. הצוות לא שינה מודלים. במקום זאת, הם הצליחו ליצור קבוצת נתונים של 120,000 דוגמאות, שסומנו על ידי רופאי עיניים. (מידע נוסף זמין בכתובת https://research.google.com/pubs/pub43022.html).