大型語言模型簡介

第一次使用語言模型或大型語言模型嗎?請查看下列資源。

什麼是語言模型?

語言模型是機器學習模型,用於預測及產生可切換的語言。自動完成功能是一種語言模型。

這類模型可預估「權杖」或權杖順序較長的權杖發生的機率。請考慮使用下列句子:

When I hear rain on my roof, I _______ in my kitchen.

假設權杖是字詞,則語言模型會判斷不同字詞或字詞序列的可能性,以取代該底線。例如,語言模型可能會決定下列機率:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

「權杖順序」可以是整個句子或一句話。 也就是說,語言模型可以計算不同句點或文字區塊的可能性。

推測序列中的下一個項目將有助於處理各種事務,例如產生文字、翻譯語言及回答問題等等。

什麼是大型語言模型?

大規模建立人類語言模型是一項高度複雜且需要耗費大量資源的工作。為了拓展語言模型和大型語言模型的追求,我們歷經數十年來的旅程。

隨著模型的建構規模較大,其複雜度和效能也都會增加。早期語言模型可以預測單一字詞的可能性;現代大型語言模型可以預測語句、段落,甚至是整個文件的機率。

過去幾年來,語言模型的大小和能力已經急遽增加,因為電腦記憶體、資料集大小和處理能力增加,而且開發較長的文字序列模型的效率也更高。

請問檔案大小有多大?

定義過於模糊,但用於「BE」來描述 BERT (1, 000 萬個參數) 和 PaLM 2 (最多 340B 參數)。

參數是模型在訓練期間學到的權重,可用來預測序列中的下一個權杖。「大」可以是模型中的參數數量,有時也可以是資料集內的字詞數。

轉換工具

語言模擬的一大關鍵是我們在 2017 年推出的「Transformer」(轉換) 相關架構,這個架構是以「攻擊」為核心。如此一來,您就可以專注於輸入最重要的部分,解決先前模型遇到的記憶體問題,進而處理較長的序列。

變形程序是最先進的架構,適用於各種語言模型應用程式,例如譯者。

如果輸入為 "I am agood dog.",由 Transformer 為基礎的譯工具會將輸入轉換為輸出 "Je suis un bon chien." (輸入內容是法文),

完整轉換工具包含編碼器解碼器。編碼器會將輸入文字轉換為中繼表示法,而解碼器會將該中繼表示法轉換為實用的文字。

自我攻擊

變形程序會過度仰賴「自主攻擊」的概念。自我自我認證部分是語料庫中每個權杖的「同心」焦點。實際上,自我攻擊代表要詢問「每個輸入憑證對 me 有多重要?」為簡化案件,請假設每個權杖都是一個單字,而完整的背景資訊就是一個句子。請把握以下句子:

動物過度疲倦,導致動物無法穿越街道上。

上個句子有 11 個字,因此這 11 個字詞要花 10 個字詞,其餘 10 個字的意義則是 10 個字的意義。例如,這個句子包含代名 it。代名詞通常沒有模稜兩可的情況。代名詞it 一律是指最近的名詞,但在範例語中,最近「名」的意思是「動物」或街道。

自我認證機制會決定每個附近字詞與代名詞 it 的關聯性。

LLM 的用途有哪些?

LLM 對其打造的工作非常有效,並且能產生最可取代的文字以回應輸入。他們也會開始在其他工作上展現卓越的效能,例如總結、問題回答和文字分類。這就是「新興功能」。LLM 甚至可以解決一些數學問題及撰寫程式碼 (但建議檢查其工作)。

LLM 是模擬人類語音模式的極佳方式。其中包括結合各種不同風格和色調的資訊。

不過,LLM 可以是模型的元件,而不僅僅是產生文字。近期的 LLM 已用於建構情緒偵測器、惡意分類器和產生圖片說明文字。

LLM 注意事項

大型模型並沒有缺點。

最大的 LLM 價格高昂,可能需要幾個月才能完成訓練,因此會產生大量資源。

他們通常也可以將工作重新用於其他工作,是寶貴的銀色。

使用數兆參數訓練模型來建立工程挑戰。特殊的基礎架構和程式設計技巧必須能夠協調資料流與方塊的連接,然後再次執行。

您可以透過下列方式降低這些大型模型的成本。其中有離線推論蒸餾

偏誤在大型模型中可能會發生問題,而且在訓練和部署期間應納入考量。

這些模型在人類語言上完成訓練後,可能會產生多種潛在的倫理問題,包括不當使用語言,以及種族、性別、宗教等的偏誤。

值得注意的是,隨著這些模型持續成長且有更好的效能,我們必須持續瞭解和緩解缺點。進一步瞭解 Google 如何實踐負責任的 AI 技術