LLM:What';什麼是大型語言模型?

一種新技術 大型語言模型 (LLM) 預測符記或符記序列 有時可預測好幾個段落 預測符記請注意,符記可以是字詞、子字詞 ( 單一字元) 或單一字元LLM 的預測品質更好 大於 N 公克語言模型或循環類神經網路,因為:

  • LLM 包含的參數更多 比重複模式更多
  • LLM 能收集到更多背景資訊。

本節介紹最成功且廣受使用的架構 Transformer

什麼是 Transformer?

Transformer 是各種先進技術的架構 例如翻譯

圖 1. 你問:我是個好狗。以 Transformer 為基礎
            將輸入的輸入內容轉換為輸出內容:Je suis un bon
            將同一個句子翻譯成法文
圖 1:翻譯型應用程式 。

 

完整轉換器包含編碼器和解碼器:

  • 編碼器會將 以中間表示法輸入文字編碼器是指 「神經網路」
  • 解碼器會將 將表示法轉化為實用文字解碼器也是 巨大的類神經網路

舉例來說,在翻譯工具中:

  • 編碼器會處理輸入文字 (例如英文句子) 一些中間表示法
  • 解碼器會將該中繼表示法轉換為輸出文字 例如,等同的法文語句)。
,瞭解如何調查及移除這項存取權。
圖 2:以 Transformer 為基礎的翻譯器開頭是編碼器
            模型會產生一個以
            語句解碼器會將該中介表示法
            一個法文輸出語句
圖 2.完整 Transformer 內含編碼器和解碼器

 

什麼是自我注意力?

為了增強脈絡,轉換器非常依賴名為 自註意式設計。 實際上,就每個輸入內容的符記來說,自我注意力機制 下列問題:

「你彼此對 「產生權杖嗎?」

「自己」「自註意力」會參照輸入序列有點注意 機制會加權輸入符記與輸出序列中符記的關係,例如 翻譯或傳送至符記但僅限自我注意力 可加權輸入序列中符記關聯性的重要性。

為了簡化內容,請假設每個符記都是一個字詞,且完整呈現 只是一個句子請見以下句子:

The animal didn't cross the street because it was too tired.

前一句包含 11 個字詞,其中的 11 個字詞 注意另外十個字,想知道這十個單字分別是多少 對自己來說很重要舉例來說,請注意,假設語句含有人稱代名詞 。人稱代名詞通常不明確。代名詞通常是指 在範例句中填入近期名詞或名詞片語 「它」是指動物還是街道?

自我注意力機制能判斷「每個」鄰近字詞與以下字詞的關聯性: 代名詞 it。圖 3 顯示成果 - 線條代表越大,越多越好 更重要的是也就是「animal」 對人稱代名詞「街道」來說相當重要。

圖 3. 句子中十一個字的關聯性:
            「動物太累,所以沒有穿越馬路」
            然後標示為「it」「animal」字樣是最相關的
            「it」
圖 3. 代名詞 it 自行留意。最低價格: Transformer:新型類神經網路架構 語言理解。

 

反之,假設語句的最後一個字詞更改如下:

The animal didn't cross the street because it was too wide.

在以上修訂的句子中,自註意能將街道評為 比「動物」代名詞「動物」更具關聯性。

某些自我注意力機制屬於雙向機制,也就是 計算符記的關聯性分數,範圍涵蓋「上一個」和「跟隨」 活動。例如,在圖 3 中,請注意 因此,雙向的自我注意力機制 可以看出該字詞任一側字詞的語境相對地 單向的自我注意力機制只能從字詞中收集背景資訊 答案是肯定的雙向自我注意力是 特別適合用於產生整個序列的表示法 依符記產生序列的應用程式需要單向 自我注意力上因此,編碼器會使用雙向自註意力機制 而解碼器則會使用單向模式

什麼是多頭式自我注意力?

每個自我注意力層通常包含多個 圖層的輸出內容是一項數學運算 (例如加權平均值或內積) 不同的頭部

每個自我注意力層都會初始化為隨機值,因此會有不同的頭部 在每個詞彙中學習字詞時, 鄰近字詞。例如前述的自註意層 部分則著重於判斷「這個代名詞」所提及的「名詞」。 不過,其他自我注意力層可能會得知 或是學習其他互動方式

為什麼 Transformer 這麼大?

Transformer 包含數百億或數兆個 參數。 本課程一般建議以 比起含有大量參數的參數, 畢竟,參數數量較少的模型使用的資源較少 進行預測,比參數更多的模型做預測 然而,研究顯示,具有更多參數的 Transformer 反而能比使用參數較少的 Transformer 更為優異。

不過,LLM 如何產生文字?

你已瞭解研究人員如何訓練 LLM 預測一或兩個遺漏的單字 都可能會打折扣畢竟,預測一個一兩個字 自動完成功能已內建於各種文字、電子郵件和編寫軟體中。 您可能會好奇 LLM 如何生成句子或段落 關於套利的 Haikus。

事實上,LLM 基本上是自動完成的機制 預測 (完整) 數千個符記舉例來說 後面接著遮蓋的句子:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM 可產生遮蓋語句的機率,包括:

機率 字詞
3.1% 舉例來說,他可以在
2.9% 舉例來說,他知道如何坐下來

規模夠大的 LLM 能產生段落和整段內容的機率 文章。您可以將使用者提出的問題想成 LLM語句 後面接著一個虛構的遮罩例如:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

這個 LLM 會根據各種可能回覆產生機率。

再舉一例,LLM 使用大量的數學「單字」訓練 LLM 問題」這種模型可讓人生成複雜的數學推理 不過,這些 LLM 基本上就是自動填寫字詞問題提示,

大型語言模型的優點

LLM 能生成清楚易懂的文字 目標對象的多樣性LLM 能根據現有工作進行預測 經過明確訓練部分研究人員表示,LLM 也能 系統「並未」明確訓練這些模型的 研究人員拒絕了這項主張

LLM 相關問題

訓練 LLM 涉及許多問題,包括:

  • 收集超棒的訓練集。
  • 您使用多個月和大量運算資源 電費
  • 解決平行處理挑戰。

使用 LLM 來「推論」預測作業會導致以下問題:

  • LLM 購物決策 意味著他們的預測往往含有錯誤
  • LLM 會耗用大量運算資源和電力, 使用大型資料集訓練 LLM 時,通常可減少 儘管訓練資料越大 則會產生更多訓練資源
  • 如同所有機器學習模型,LLM 可能會出現各種偏誤。

練習:隨堂測驗

假設 Transformer 的訓練資料涵蓋 10 億份文件,包括 至少列出一個字詞 大象。請問以下敘述何者正確?
密封樹是大象飲食中重要的一環 逐漸獲得相當高的自我注意力分數 大象
是,這可讓 Transformer 回答 大象的飲食
Transformer 會將「大象」這個字詞與 包含「elephant」一詞的慣用語。
是,系統會開始附加較高的自註意力分數 「大象」這個字詞之間和 和象牙
Transformer 會逐步學習忽略任何反諷或 在訓練資料中以非同步的方式使用「象」一詞。
足夠的大型 Transformer 接受充分的廣泛訓練 訓練集相當擅長於辨識諷刺、幽默 還有 irony與其忽略諷刺和挖苦的概念 Transformer 從中學習