本頁面包含序列模型的詞彙表。如要查看所有詞彙表術語,請按這裡。
B
bigram
N=2 的 N-gram。
E
爆炸式漸層問題
深層類神經網路 (尤其是迴歸類神經網路) 中梯度的趨勢,會變得相當陡峭 (高)。陡峭的梯度通常會導致深度神經網路中每個節點的權重大幅更新。
發生梯度爆炸問題的模型很難或無法訓練。漸層裁剪可緩解這個問題。
請比較消失梯度問題。
F
忘記門
長期短期記憶 單元格中用於調控資訊流的部分。忘記閘會決定要從儲存格狀態中捨棄哪些資訊,以便維持內容。
G
梯度限幅
這是一種常用的機制,可在使用梯度下降法訓練模型時,人為地限制 (截斷) 梯度的最大值,藉此緩解梯度爆炸問題。
L
長短期記憶 (LSTM)
迴圈神經網路中的一種單元格,用於處理應用程式中的資料序列,例如手寫辨識、機器翻譯和圖片說明文字。LSTM 會根據 RNN 中先前儲存格的新輸入和背景資訊,在內部記憶體狀態中保留記錄,藉此解決訓練 RNN 時因長資料序列而發生的梯度消失問題。
LSTM
長短期記憶的縮寫。
否
N 元語法
由 N 個字組成的有序序列。例如「truly madly」就是一個 2 元組。由於順序相關,madly truly 與 truly madly 的 2 元組不同。
否 | 這類 N-gram 的名稱 | 範例 |
---|---|---|
2 | 大元音節或 2 元音節 | to go, go to, eat lunch, eat dinner |
3 | 三元組或 3 元組 | ate too much, three blind mice, the bell tolls |
4 | 4 個字元 | 在公園散步,風中飄揚的灰塵,男孩吃了扁豆 |
許多自然語言理解模型都會使用 N-gram 預測使用者輸入或說出的下一個字詞。舉例來說,假設使用者輸入「three blind」。以三元組為基礎的 NLU 模型可能會預測使用者接下來會輸入「mice」。
請比較 N-gram 與詞袋,後者是未排序的字詞集合。
R
循環類神經網路
神經網路:有意執行多次的網路,其中每個執行作業的部分會饋送至下一個執行作業。具體來說,上次執行作業的隱藏層會為下次執行作業提供相同隱藏層的部分輸入內容。循環類神經網路特別適合用於評估序列,這樣隱藏層就能從前次執行類神經網路時,在序列早期部分學習到的內容。
舉例來說,下圖顯示執行四次的循環神經網路。請注意,在第一次執行時,隱藏層學習到的值會成為第二次執行時相同隱藏層的輸入值。同樣地,在第二次執行時隱藏層學習到的值,會成為第三次執行時相同隱藏層的輸入值。如此一來,迴圈神經網路就能逐步訓練並預測整個序列的含義,而非只預測個別字詞的含義。
RNN
循環類神經網路的縮寫。
S
序列模型
輸入內容具有序列依賴性的模型。例如,從先前觀看的影片序列中預測下一個要觀看的影片。
T
時間間隔
循環類神經網路中一個「未展開」的單元格。例如,下圖顯示三個時間步 (以 t-1、t 和 t+1 為下標標示):
三元組
N=3 的 N-gram。
V
梯度消失問題
某些深度神經網路的早期隱藏層梯度,有變得異常平坦 (低) 的趨勢。梯度越來越低,導致深層類神經網路中節點的權重變化越來越小,導致學習效果不佳或完全沒有學習。發生梯度消失問題的模型很難或無法訓練。長短期記憶單元可解決這個問題。
請比較爆炸漸層問題。