大型語言模型

什麼是語言模型?

語言模型 估算符記 或是一串符記的符記。權杖 可以是某個字詞、子字詞 (某字詞的子集) 或單一字元。

請思考以下語句,以及可能完成此句子的符記:

When I hear rain on my roof, I _______ in my kitchen.

語言模型會決定不同符記的可能性 完成此空白時所需的符記序列例如,下列 機率表會找出一些可能的符記及其機率:

機率 權杖
9.4% 煮湯
5.2% 讓熱水壺變熱
3.6% 科爾
2.5% 小睡片刻
2.2% 放鬆身心

在某些情況下,符記序列可以是整個語句, 或甚至是整篇論文

應用程式可以使用機率資料表進行預測。 預測結果可能最高 (例如「烹飪湯」) 或是從機率大於某個字詞的符記中隨機選取 門檻。

預估文字序列空白填充的可能性 適用於較複雜的工作,包括:

  • 正在產生文字。
  • 將文字翻譯成另一種語言。
  • 產生文件摘要。

現代語言模型會對符記的統計模式建立模型 功能極為強大的語言圖解 以及負責任的言語

N 元語法語言模型

N 公克是字詞序列的排序 用於建立語言模型,其中 N 是序列中的字詞數。 例如,當 N 為 2 時,N 元語法稱為 2 公克 (或 bigram);當 N 為 5 時,N 語法為 稱為 5 公克的在訓練文件中,請參見以下詞組:

you are very nice

產生的 2 元語法如下:

  • 非常
  • 非常好

當 N 為 3 時,N 元語法稱為 3 公克 (或 trigram)。在這個詞組中 產生的 3 公克如下:

  • 你非常
  • 真好笑

如果將兩個字詞做為輸入內容,以 3 公克為基礎的語言模型就能預測 也是可能性以下列兩個字詞為例:

orange is

語言模型會檢查訓練過程中產生的所有 3 公克 以 orange is 開頭的語料庫,判斷最有可能的第三個字詞。 數百個 3 公克以「orange is」這個字詞開頭,但您可以 只著重在下列兩種可能性:

orange is ripe
orange is cheerful

第一個可能性 (orange is ripe) 關於橘色水果, 第二個可能性 (orange is cheerful) 則是關於顏色 橘色。

背景資訊

人類會保留相對較長的背景資訊。觀看《Ace 3》時 仍然保有 Act 1 中介紹角色的知識。同樣地, 笑話可說是笑話,因為你可以記住這邊的脈絡 擷取畫面的內容

在語言模型中,背景資訊是相當實用的資訊 目標權杖背景資訊可協助語言模型判斷「橘色」 是指柑橘類水果或顏色。

背景資訊可協助語言模型做出更準確的預測 3 公克的背景資訊充足?但現在只有 3 公克 會提供前兩個字詞例如,orange is 沒有這兩個字詞 為語言模型提供足夠的背景資訊,以便預測第三個字詞。 由於缺乏上下文,以 3 公克為基礎的語言模型經常犯下許多錯誤。

與較短的 N 公克相比,較長的 N 克就能提供較多背景資訊。 然而,隨著 N 增長,每個執行個體的相對出現次數也會減少。 當 N 變大時,語言模型通常只會含有一個 產生 N 個符記的例項,這對 預測目標符記

循環類神經網路

循環神經 網路 提供的背景資料比 N 元語法更多循環類神經網路是一種 用來訓練的類神經網路 符記序列例如循環類神經網路 可以循序學習 (並學習忽略) 從每個字詞選取的內容 就像你在聽別人說話時一樣 大型循環類神經網路可以從多個模型的段落獲得背景資訊 不同語句

雖然循環類神經網路比 N 元語法獲得更多資訊, 包含實用背景脈絡的循環類神經網路,仍可推進 受到限制。循環類神經網路會評估「依符記劃分的符記」資訊。 相較之下,大型語言模型 區段) - 可以一次評估整個背景資訊。

請注意,長時間的背景訓練循環類神經網路必須遵循 消失的漸層 問題

練習:隨堂測驗

哪個語言模型對英文文字的預測品質較佳?
  • 以 6 公克為基礎的語言模型
  • 以 5 公克為基礎的語言模型
答案取決於培訓的規模和多樣性 設定。
如果訓練集包含數百萬份不同文件,那麼 以 6 公克為基礎的模型 以 5 公克為基準
以 6 公克為基礎的語言模型。
這個語言模型提供更多背景資訊,但除非這個模型 訓練過大量文件後,大部分 6 公克 極少出現
以 5 公克為基礎的語言模型。
這個語言模型的背景資訊較少,因此不太可能 表現的效果優於語言模型 (以 6 公克表示)