מילון מונחים ללמידת מכונה: מודלים של רצף

דף זה מכיל מונחי מונחים של מודלים של רצף. לכל המונחים במילון המונחים, לחצו כאן.

B

Bigram

#seq
#language

N-gram שבו N=2.

ה.

בעיה עם צבע מדורג מתפוצץ

#seq

הנטייה של הדרגתיות ברשתות נוירונים עמוקות (במיוחד ברשתות נוירונים חוזרות) להיות תלולה באופן מפתיע (גבוה). לרוב, הדרגה תלולה גורמת לעדכונים גדולים מאוד במשקלים של כל צומת ברשת נוירונים עמוקה.

קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיה של שיפוע מתפוצץ. אפשר לפתור את הבעיה הזו בעזרת חיתוך צבעים הדרגתי.

השוואה לבעיה נעלמת הדרגתית.

נ

שער שכח

#seq

החלק בתא של זיכרון ארוך לטווח קצר, שמווסת את זרימת המידע בתא. אפשר לשכוח שערים כדי לשמור על ההקשר על ידי החלטה איזה מידע למחוק ממצב התא.

G

חיתוך הדרגתי

#seq

מנגנון נפוץ לצמצום הבעיה של שיפוע הדרגתי על ידי הגבלה (חיתוך) של הערך המקסימלי של ההדרגתיות כשמשתמשים בירידה הדרגתית לאימון של מודל.

L

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא ברשת נוירונים חוזרת המשמש לעיבוד רצפים של נתונים באפליקציות כמו זיהוי כתב יד, תרגום מכונה וכיתובי תמונות. תוספי LSTM מטפלים בבעיית ההדרגתיות הנעלמת שמתרחשת כשמבצעים אימון של רשתות RNN בגלל רצפי נתונים ארוכים, על ידי שמירת ההיסטוריה במצב זיכרון פנימי על סמך קלט חדש והקשר חדש מתאים קודמים ב-RNN.

LSTM

#seq

קיצור של זיכרון ארוך לטווח קצר.

לא

N-גרם

#seq
#language

רצף סדור של N מילים. לדוגמה, הכיתוב באמת מטורף הוא 2 גרם. בגלל שסדר הוא רלוונטי, אז הערך באמת מטורף הוא 2 גרם שונה ממה שבאמת מטורף.

לא שמות לסוג N-gram דוגמאות
2 Bigram או 2 גרם ללכת, ללכת, לאכול ארוחת צהריים, לאכול ארוחת ערב
3 טריגרם או 3 גרם אכלתם יותר מדי, שלושה עכברים עיוורים, פעמוניות
4 4 גרם ללכת בפארק, אבק ברוח, הילד אכל עדשים

מודלים רבים של הבנת שפה טבעית מסתמכים על N-gram כדי לחזות את המילה הבאה שהמשתמש יקליד או יאמר. לדוגמה, נניח שמשתמש הקליד שלושה עיוורים. סביר להניח שמודל NLU שמבוסס על טריגרים יחזה שהמשתמש יקליד עכברים.

השוו בין גרם N לתיק מילים, שהן קבוצות לא מסודרות של מילים.

R

רשת נוירונים חוזרת

#seq

רשת נוירונים שפועלת באופן מכוון כמה פעמים, כשחלקים מכל הרצה עוברים להרצה הבאה. באופן ספציפי, שכבות מוסתרות מההרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת בהפעלה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כדי שהשכבות המוסתרות יוכלו ללמוד מהפעלות קודמות של רשת הנוירונים בחלקים קודמים של הרצף.

לדוגמה, באיור הבא מוצגת רשת נוירונים חוזרת שפועלת ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות מההרצה הראשונה הופכים לחלק מהקלט לאותן שכבות מוסתרות בהפעלה השנייה. באופן דומה, הערכים שנלמדו בשכבה המוסתרת בהרצה השנייה הופכים לחלק מהקלט של אותה שכבה מוסתרת בהפעלה השלישית. כך רשת הנוירונים החוזרת מאמנים וחוזה בהדרגה את המשמעות של כל הרצף, ולא רק את המשמעות של מילים בודדות.

רשת נוירונים חוזרת (RNN) שפועלת ארבע פעמים כדי לעבד ארבע מילות קלט.

RNN

#seq

קיצור של רשתות נוירונים חוזרות.

S

מודל רצף

#seq

מודל שיש לקלטים שלו תלות רציפה. לדוגמה, חיזוי של הסרטון הבא שנצפה מתוך רצף של סרטונים שנצפו בעבר.

T

צעד זמן

#seq

תא אחד (unrolled) בתוך רשת נוירונים חוזרת. לדוגמה, האיור הבא מציג שלושה שלבי זמן (מסומנים בתוויות t-1, t ו-t+1):

שלושה שלבי זמן ברשת נוירונים חוזרת. הפלט של
 השלב הראשון הופך לקלט של שלב הזמן השני. הפלט של השלב השני הופך לקלט של שלב הזמן השלישי.

טריגרם

#seq
#language

N-gram שבו N=3.

V

בעיה הדרגתית נעלמת

#seq

הנטייה להדרגתיות של שכבות נסתרות מוקדמות של רשתות נוירונים עמוקות להיות שטוחות באופן מפתיע (נמוכה). ירידה הולכת וקטנה בהדרגתיות מובילה לשינויים קטנים יותר במשקלים בצמתים ברשת נוירונים עמוקה, שמובילה ללמידה מועטה או ללא למידה. קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית השיפוע הנעלם. תאי זיכרון ארוך לטווח קצר מטפלים בבעיה הזו.

השוואה לבעיה מתפוצצת הדרגתית.