מילון מונחים ללמידת מכונה: מודלים של רצף

בדף הזה מפורטים מונחים מתוך מילון המונחים של מודלים של רצפים. כאן מפורטות כל ההגדרות במילון.

B

bigram

#seq
#language

N-gram שבו N=2.

E

בעיית 'התפרצות שיפוע'

#seq

הנטייה של שיפועים ברשתות נוירונים עמוקות (במיוחד ברשתות נוירונים חוזרות) להיות תלולים (גבוהים) באופן מפתיע. לרוב, שיפועים תלולים גורמים לעדכונים גדולים מאוד במשקלים של כל צומת ברשת נוירונים עמוקה.

קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית הגרדינט המתפוצץ. אפשר לצמצם את הבעיה באמצעות חיתוך של גרדיאנטים.

בהשוואה לבעיה של שיפוע נעלם.

F

שער 'שכחה'

#seq

החלק בתא של זיכרון לטווח ארוך-קצר שמווסת את זרימת המידע דרך התא. שערי השכחה שומרים על ההקשר על ידי החלטה איזה מידע לזרוק מהמצב של התא.

G

חיתוך של צבע מדורג

#seq

מנגנון נפוץ שמוגבל באופן מלאכותי (חיתוך) את הערך המקסימלי של שיפועים כשמשתמשים בירידה בגרדינט כדי לאמן מודל, וכך מפחית את הבעיה של גרדינט מתפוצץ.

L

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא ברשת נוירונים חוזרת שמשמש לעיבוד רצפי נתונים באפליקציות כמו זיהוי כתב יד, תרגום מכונה והוספת כתוביות לתמונות. כדי לטפל בבעיית שיפוע הולך ופוחת שמתרחשת במהלך אימון של רשתות RNN בגלל רצפי נתונים ארוכים, רשתות LSTM שומרות את ההיסטוריה במצב של זיכרון פנימי על סמך קלט חדש והקשר מתאים מהתאים הקודמים ב-RNN.

LSTM

#seq

קיצור של זיכרון לטווח ארוך-קצר.

לא

N-gram

#seq
#language

רצף מסודר של N מילים. לדוגמה, truly madly הוא 2-gram. מכיוון שהסדר רלוונטי, madly truly הוא גרם דו-מילוני שונה מ-truly madly.

לא השמות של סוג ה-n-gram הזה דוגמאות
2 שתי מילים ברצף (bigram) או שתי מילים (2-gram) to go, go to, eat lunch, eat dinner
3 טריגרמ או 3-גרם ate too much, three blind mice, the bell tolls
4 4 גרם walk in the park, dust in the wind, the boy ate lentils

מודלים רבים של הבנת שפה טבעית מסתמכים על מילוני N-grams כדי לחזות את המילה הבאה שהמשתמש ידפיס או יגיד. לדוגמה, נניח שמשתמש הקליד three blind. מודל NLU שמבוסס על טריגרמות צפוי לחזות שהמשתמש ידפיס בשלב הבא את המילה mice.

בניגוד ל-n-grams, תיק מילים הוא קבוצה של מילים ללא סדר.

R

רשת נוירונים חוזרת

#seq

רשת נוירונים שמופעלת בכוונה כמה פעמים, כאשר חלקים מכל הפעלה מועברים להפעלה הבאה. באופן ספציפי, שכבות חבויות מהרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת ברצפה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כך שהשכבות המוסתרות יכולות ללמוד מפעולות קודמות של רשת העצבים בחלקים קודמים של הרצף.

לדוגמה, באיור הבא מוצגת רשת נוירונים חוזרת שפועלת ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות מההרצה הראשונה הופכים לחלק מהקלט של אותן שכבות מוסתרות בהרצה השנייה. באופן דומה, הערכים שנלמדו בשכבה המוצפנת במהלך ההרצה השנייה הופכים לחלק מהקלט של אותה שכבה מוצפנת במהלך ההרצה השלישית. כך, רשת העצבים הרגולרית מתאמנת בהדרגה ומנבאת את המשמעות של הרצף כולו, ולא רק את המשמעות של מילים בודדות.

RNN שפועלת ארבע פעמים כדי לעבד ארבע מילות קלט.

RNN

#seq

ראשי תיבות של רשתות נוירונים חוזרות.

S

מודל רצף

#seq

מודל שבו לקלטים יש תלות רציפה. לדוגמה, חיזוי הסרטון הבא שיוצג על סמך רצף של סרטונים שצפו בהם בעבר.

T

זמן צעד

#seq

תא אחד 'לא מגולגל' בתוך רשת נוירונים חוזרת. לדוגמה, באיור הבא מוצגות שלוש נקודות זמן (שסומנו בסוגריים תחתונים t-1,‏ t ו-t+1):

שלוש נקודות זמן ברשת נוירונים חוזרת. הפלט של זמן הצעד הראשון הופך לקלט של זמן הצעד השני. הפלט של שלב הזמן השני הופך לקלט של שלב הזמן השלישי.

טריגרמ

#seq
#language

N-gram שבו N=3.

V

בעיית התנאי של שיפוע מתאפס

#seq

הנטייה של שיפועי השכבות המוסתרות המוקדמות של חלק מרשתות נוירונליות עמוקות להפוך לשטוחיים (נמוכים) באופן מפתיע. ככל שהמדרונות יהיו נמוכים יותר, כך השינויים במשקלים של הצמתים ברשת העצבית העמוקה יהיו קטנים יותר, וכתוצאה מכך תהיה למידה מועטה או לא תהיה כלל. קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית התנאי של היעלמות השיפוע. תאים של זיכרון לטווח ארוך לטווח קצר פותרים את הבעיה הזו.

בהשוואה לבעיית שיפוע מתפוצץ.