Introduction to Large Language Models

對語言模型或大型語言模型一無所知嗎?請參閱下列資源。

什麼是語言模型?

語言模型是一種機器學習 模型 旨在預測並生成合理語言例如,自動完成建議是一種語言模型。

這類模型的運作方式為估算符記或符記序列出現在較長符記序列中的機率。假設 以下句子:

When I hear rain on my roof, I _______ in my kitchen.

如果您假設符號是字詞,則語言模型會判斷不同字詞或字詞序列取代底線的可能性。舉例來說,語言模型可能會判斷下列機率:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

「符記序列」可以是整個句子或一系列句子。也就是說,語言模型可以計算不同整句或文字區塊的可能性。

預估序列中下一個出現的機率 像是生成文字、翻譯語言 例如問題

什麼是大型語言模型?

大規模建立人類語言模型是一項極為複雜且耗用大量資源的任務。語言模型和大型語言模型的功能,是經過數十年的努力才達到目前的程度。

隨著模型建構的規模更大,模型的複雜度和效能也會提升。 早期的語言模型可以預測單字的機率;而現代大型語言模型則可以預測句子、段落,甚至整份文件的機率。

隨著電腦記憶體、資料集大小和運算能力的提升,以及更有效的長文字序列建模技術開發,語言模型的大小和功能在過去幾年大幅成長。

請問是多大的?

這個定義模糊,但「大型」一詞已用於描述 BERT (1.1 億個參數) 和 PaLM 2 (最多 3400 億個參數)。

參數是模型在訓練期間學到的權重,用於預測序列中的下一個符記。「Large」可以指模型中的參數數量,有時也指資料集中的字詞數量。

Transformers

語言模型開發的一大重點是 2017 年 Transformer 的架構, 注意。 這樣一來,系統就能專注於輸入內容中最重要的部分,進而處理較長的序列,解決先前模型遇到的記憶體問題。

Transformer 是各種語言模型應用程式 (例如翻譯器) 的最新架構。

如果輸入內容為 "I am a good dog." (我是好狗狗),則為 Transformer 型翻譯器 並將輸入內容轉換為輸出內容 "Je suis un bon chien.",也就是 翻譯成法文

完整的 Transformer 由編碼器解碼器組成。一個 編碼器會將輸入文字轉換為中繼表示法 將中繼表示法轉化為實用文字。

自我注意

Transformer 大量依賴「自注意」概念。自注意力的「自我」部分是指詞彙庫中每個符號的「自我中心」焦點。實際上,自注意力會代表每個輸入符記,詢問「每個其他輸入符記對 的重要程度為何?」為簡化問題,我們假設每個符記都是一個字,完整的上下文則是單一句子。請考慮以下句子:

動物太累,所以沒有跨越街道。

前述句子中有 11 個字詞,因此每個字詞都會注意其他 10 個字詞,並思考每個字詞對自己的重要性。舉例來說,請注意這句話包含代名詞「it」。人稱代名詞通常不明確。代名詞一律是指最近的名詞 但在例句中,最近的名詞「它」是指:動物 還是大街小巷?

自我注意力機制能判斷附近字詞與 代名詞 it

大型語言模型的用途有哪些?

LLM 在其設計用途上非常有效,也就是根據輸入內容產生最合理的文字。甚至已經開始顯示 在其他工作上展現出色成效;例如摘要、問題 以及文字分類這就是所謂的新興能力。LLM 甚至可以解決某些數學問題並編寫程式碼 (不過建議您檢查他們的作業)。

LLM 擅長模仿人類的說話模式,除了其他功能外,它們還能將不同風格和色調的資訊結合在一起。

不過,LLM 是模型的構成要素, 生成文字近期的 LLM 已用於建立情緒偵測器、惡意內容分類器,以及產生圖片說明文字。

LLM 注意事項

這類大型模型並非沒有缺點。

最大的 LLM 費用很高。訓練時間可能長達數月,因此 會耗用大量資源

這些程式也能重複用於其他工作,這是一件珍貴的銀色系內。

使用數兆參數以上的訓練模型 也面臨工程挑戰特殊基礎架構和程式設計 必須採用一些技術來協調各方塊的流程,然後再處理一次。

有幾種方法可以降低這類大型模型的費用,兩種做法是 離線推論蒸餾

偏差可能會成為大型模型的問題,因此在訓練和部署時應加以考量。

這些模型是以人類語言訓練而成,因此可能會產生 包括語言濫用、種族偏見 性別、宗教等

這些模型將持續擴大規模,且 我們仍需投入大量心力,才能瞭解及 減輕缺點進一步瞭解 Google 如何

進一步瞭解 LLM

想進一步瞭解大型語言模型嗎?請參閱機器學習速成課程中的新「大型語言模型」模組。