機器學習詞彙表:序列模型

本頁麵包含序列模型詞彙表字詞。如需所有詞彙表字詞,請按這裡

B

Bigram

#seq
#language

N=2 的 N-gram

E

爆炸漸層問題

#seq

深層類神經網路 (尤其是循環類神經網路) 中的漸層傾向出現令人意外 (高)。陡降梯度通常會對深層類神經網路中每個節點權重進行大量更新。

因爆炸梯度問題而受到影響的模型會變得難以訓練,或無法訓練。漸層裁剪可緩解這個問題。

去除梯度問題相比。

F

忘記大門

#seq

長短期記憶體儲存格中用於控制儲存格資訊流動的部分。捨棄大門,就能決定要從儲存格狀態中捨棄哪些資訊,藉此保有背景資訊。

G

漸層裁剪

#seq

這個常用機制可在使用梯度下降法訓練模型時,透過人為方式限制 (裁剪) 漸層最大值,藉此減緩爆炸漸層問題

L

長短期記憶 (LSTM)

#seq

循環類神經網路中的一種儲存格類型,用於處理應用程式中的一系列資料,例如手寫辨識、機器翻譯和圖片說明文字。LSTM 會根據 RNN 中前一個儲存格的新輸入內容和背景資訊,在內部記憶體狀態中保留記錄,藉此解決訓練 RNN 造成的消除梯度問題

LSTM

#seq

長短期記憶的縮寫,

N

N 公克

#seq
#language

已排序的 N 個字詞序列。例如「truly madly」是 2 公克。由於順序相關,因此「真的」與「真的生機」是不同的 2 元語法。

N 這類 N-gram 的名稱 示例
2 Biram 或 2 克 外帶、外出、吃午餐、吃晚餐
3 3 公克
4 4 公克

許多自然語言理解模型都使用 N 克來預測使用者會輸入或說出的下一個字詞。例如,假設使用者輸入了三條百葉窗。以三元為基礎的 NLU 模型可能會預測使用者接下來會輸入「mice」

比較 N 克與「詞袋」(未排序的字詞組合)。

R

循環類神經網路

#seq

刻意執行多次的「類神經網路」,其中每個部分的內容都會饋送至下一次執行。具體來說,先前執行結果的隱藏層,可在下次執行時將部分輸入提供給同一個隱藏層。循環類神經網路在評估序列時特別實用,因此隱藏層能夠從序列較早的部分執行類神經網路,並從中學習。

例如,下圖顯示執行四次的循環類神經網路。請注意,在首次執行時,在隱藏層中學到的值,會成為第二次執行時相同隱藏層的輸入的一部分。同樣地,在第二次執行時,隱藏層中學到的值,會成為第三次執行中相同隱藏層的輸入內容。如此一來,循環類神經網路會逐漸訓練並預測整個序列的含意,而不只是個別字詞的含義。

一個 RNN,執行四次來處理四個輸入字詞。

循環類神經網路

#seq

循環類神經網路的縮寫,

序列模型

#seq

包含輸入具有序列依附性的模型。例如,從先前看過的影片序列預測接下來看過的影片。

T

時間步

#seq

循環類神經網路中的一個「無捲動」儲存格。例如,下圖顯示三個時間步驟 (標有下標 t-1、t 和 t+1):

在循環類神經網路中執行三個時間步驟。第一個時間步的輸出內容會成為第二個時間步的輸入內容。第二個時間步的輸出內容會成為第三個時間步的輸入內容。

三元語法

#seq
#language

N=3 的 N-gram

V

消失梯度問題

#seq

某些深層類神經網路早期隱藏層的漸層傾向出現出乎意料的平坦 (低)。逐漸降低的梯度會導致對深層類神經網路中節點的權重變化越來越小,導致不太容易學習。因逐漸消失梯度問題的模型,會難以訓練或無法訓練。長短期記憶儲存格可解決這個問題。

爆炸性漸層問題比較。