一種新技術 大型語言模型 (LLM) 預測符記或符記序列 有時可預測好幾個段落 預測符記請注意,符記可以是字詞、子字詞 ( 單一字元) 或單一字元LLM 的預測品質更好 大於 N 公克語言模型或循環類神經網路,因為:
- LLM 包含的參數更多 比重複模式更多
- LLM 能收集到更多背景資訊。
本節介紹最成功且廣受使用的架構 Transformer
什麼是 Transformer?
Transformer 是各種先進技術的架構 例如翻譯
完整轉換器包含編碼器和解碼器:
舉例來說,在翻譯工具中:
- 編碼器會處理輸入文字 (例如英文句子) 一些中間表示法
- 解碼器會將該中繼表示法轉換為輸出文字 例如,等同的法文語句)。
什麼是自我注意力?
為了增強脈絡,轉換器非常依賴名為 自註意式設計。 實際上,就每個輸入內容的符記來說,自我注意力機制 下列問題:
「你彼此對 「產生權杖嗎?」
「自己」「自註意力」會參照輸入序列有點注意 機制會加權輸入符記與輸出序列中符記的關係,例如 翻譯或傳送至符記但僅限自我注意力 可加權輸入序列中符記關聯性的重要性。
為了簡化內容,請假設每個符記都是一個字詞,且完整呈現 只是一個句子請見以下句子:
The animal didn't cross the street because it was too tired.
前一句包含 11 個字詞,其中的 11 個字詞 注意另外十個字,想知道這十個單字分別是多少 對自己來說很重要舉例來說,請注意,假設語句含有人稱代名詞 。人稱代名詞通常不明確。代名詞通常是指 在範例句中填入近期名詞或名詞片語 「它」是指動物還是街道?
自我注意力機制能判斷「每個」鄰近字詞與以下字詞的關聯性: 代名詞 it。圖 3 顯示成果 - 線條代表越大,越多越好 更重要的是它也就是「animal」 對人稱代名詞「街道」來說相當重要。
反之,假設語句的最後一個字詞更改如下:
The animal didn't cross the street because it was too wide.
在以上修訂的句子中,自註意能將街道評為 比「動物」代名詞「動物」更具關聯性。
某些自我注意力機制屬於雙向機制,也就是 計算符記的關聯性分數,範圍涵蓋「上一個」和「跟隨」 活動。例如,在圖 3 中,請注意 因此,雙向的自我注意力機制 可以看出該字詞任一側字詞的語境相對地 單向的自我注意力機制只能從字詞中收集背景資訊 答案是肯定的雙向自我注意力是 特別適合用於產生整個序列的表示法 依符記產生序列的應用程式需要單向 自我注意力上因此,編碼器會使用雙向自註意力機制 而解碼器則會使用單向模式
什麼是多頭式自我注意力?
每個自我注意力層通常包含多個 圖層的輸出內容是一項數學運算 (例如加權平均值或內積) 不同的頭部
每個自我注意力層都會初始化為隨機值,因此會有不同的頭部 在每個詞彙中學習字詞時, 鄰近字詞。例如前述的自註意層 部分則著重於判斷「這個代名詞」所提及的「名詞」。 不過,其他自我注意力層可能會得知 或是學習其他互動方式
為什麼 Transformer 這麼大?
Transformer 包含數百億或數兆個 參數。 本課程一般建議以 比起含有大量參數的參數, 畢竟,參數數量較少的模型使用的資源較少 進行預測,比參數更多的模型做預測 然而,研究顯示,具有更多參數的 Transformer 反而能比使用參數較少的 Transformer 更為優異。
不過,LLM 如何產生文字?
你已瞭解研究人員如何訓練 LLM 預測一或兩個遺漏的單字 都可能會打折扣畢竟,預測一個一兩個字 自動完成功能已內建於各種文字、電子郵件和編寫軟體中。 您可能會好奇 LLM 如何生成句子或段落 關於套利的 Haikus。
事實上,LLM 基本上是自動完成的機制 預測 (完整) 數千個符記舉例來說 後面接著遮蓋的句子:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
LLM 可產生遮蓋語句的機率,包括:
機率 | 字詞 |
---|---|
3.1% | 舉例來說,他可以在 |
2.9% | 舉例來說,他知道如何坐下來 |
規模夠大的 LLM 能產生段落和整段內容的機率 文章。您可以將使用者提出的問題想成 LLM語句 後面接著一個虛構的遮罩例如:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
這個 LLM 會根據各種可能回覆產生機率。
再舉一例,LLM 使用大量的數學「單字」訓練 LLM 問題」這種模型可讓人生成複雜的數學推理 不過,這些 LLM 基本上就是自動填寫字詞問題提示,
大型語言模型的優點
LLM 能生成清楚易懂的文字 目標對象的多樣性LLM 能根據現有工作進行預測 經過明確訓練部分研究人員表示,LLM 也能 系統「並未」明確訓練這些模型的 研究人員拒絕了這項主張
LLM 相關問題
訓練 LLM 涉及許多問題,包括:
- 收集超棒的訓練集。
- 您使用多個月和大量運算資源 電費
- 解決平行處理挑戰。
使用 LLM 來「推論」預測作業會導致以下問題:
- LLM 購物決策 意味著他們的預測往往含有錯誤
- LLM 會耗用大量運算資源和電力, 使用大型資料集訓練 LLM 時,通常可減少 儘管訓練資料越大 則會產生更多訓練資源
- 如同所有機器學習模型,LLM 可能會出現各種偏誤。