什麼是語言模型?
語言模型 估算符記 或是一串符記的符記。權杖 可以是某個字詞、子字詞 (某字詞的子集) 或單一字元。
請思考以下語句,以及可能完成此句子的符記:
When I hear rain on my roof, I _______ in my kitchen.
語言模型會決定不同符記的可能性 完成此空白時所需的符記序列例如,下列 機率表會找出一些可能的符記及其機率:
機率 | 權杖 |
---|---|
9.4% | 煮湯 |
5.2% | 讓熱水壺變熱 |
3.6% | 科爾 |
2.5% | 小睡片刻 |
2.2% | 放鬆身心 |
在某些情況下,符記序列可以是整個語句, 或甚至是整篇論文
應用程式可以使用機率資料表進行預測。 預測結果可能最高 (例如「烹飪湯」) 或是從機率大於某個字詞的符記中隨機選取 門檻。
預估文字序列空白填充的可能性 適用於較複雜的工作,包括:
- 正在產生文字。
- 將文字翻譯成另一種語言。
- 產生文件摘要。
現代語言模型會對符記的統計模式建立模型 功能極為強大的語言圖解 以及負責任的言語
N 元語法語言模型
N 公克是字詞序列的排序 用於建立語言模型,其中 N 是序列中的字詞數。 例如,當 N 為 2 時,N 元語法稱為 2 公克 (或 bigram);當 N 為 5 時,N 語法為 稱為 5 公克的在訓練文件中,請參見以下詞組:
you are very nice
產生的 2 元語法如下:
- 你
- 非常
- 非常好
當 N 為 3 時,N 元語法稱為 3 公克 (或 trigram)。在這個詞組中 產生的 3 公克如下:
- 你非常
- 真好笑
如果將兩個字詞做為輸入內容,以 3 公克為基礎的語言模型就能預測 也是可能性以下列兩個字詞為例:
orange is
語言模型會檢查訓練過程中產生的所有 3 公克
以 orange is
開頭的語料庫,判斷最有可能的第三個字詞。
數百個 3 公克以「orange is
」這個字詞開頭,但您可以
只著重在下列兩種可能性:
orange is ripe orange is cheerful
第一個可能性 (orange is ripe
) 關於橘色水果,
第二個可能性 (orange is cheerful
) 則是關於顏色
橘色。
背景資訊
人類會保留相對較長的背景資訊。觀看《Ace 3》時 仍然保有 Act 1 中介紹角色的知識。同樣地, 笑話可說是笑話,因為你可以記住這邊的脈絡 擷取畫面的內容
在語言模型中,背景資訊是相當實用的資訊 目標權杖背景資訊可協助語言模型判斷「橘色」 是指柑橘類水果或顏色。
背景資訊可協助語言模型做出更準確的預測
3 公克的背景資訊充足?但現在只有 3 公克
會提供前兩個字詞例如,orange is
沒有這兩個字詞
為語言模型提供足夠的背景資訊,以便預測第三個字詞。
由於缺乏上下文,以 3 公克為基礎的語言模型經常犯下許多錯誤。
與較短的 N 公克相比,較長的 N 克就能提供較多背景資訊。 然而,隨著 N 增長,每個執行個體的相對出現次數也會減少。 當 N 變大時,語言模型通常只會含有一個 產生 N 個符記的例項,這對 預測目標符記
循環類神經網路
循環神經 網路 提供的背景資料比 N 元語法更多循環類神經網路是一種 用來訓練的類神經網路 符記序列例如循環類神經網路 可以循序學習 (並學習忽略) 從每個字詞選取的內容 就像你在聽別人說話時一樣 大型循環類神經網路可以從多個模型的段落獲得背景資訊 不同語句
雖然循環類神經網路比 N 元語法獲得更多資訊, 包含實用背景脈絡的循環類神經網路,仍可推進 受到限制。循環類神經網路會評估「依符記劃分的符記」資訊。 相較之下,大型語言模型 區段) - 可以一次評估整個背景資訊。
請注意,長時間的背景訓練循環類神經網路必須遵循 消失的漸層 問題。
練習:隨堂測驗
- 以 6 公克為基礎的語言模型
- 以 5 公克為基礎的語言模型