本頁包含語言評估詞彙解釋。如需所有詞彙表字詞,請按這裡。
A
注意力
「類神經網路」中使用的機制,表示特定字詞或部分字詞的重要性。注意力會壓縮模型在預測下一個符記/字詞所需的資訊量。一般注意力機制可能包含一組輸入的「加權總和」,其中每個輸入內容的「權重」會由類神經網路的其他部分計算。
另請參閱自註意力機制和多頭自我注意力,兩者是 Transformer 的建構區塊。
自動編碼器
學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器和解碼器構成。自動編碼器仰賴下列兩個步驟:
- 編碼器會將輸入對應至 (通常) 有損低維 (中間) 格式。
- 解碼器會將較低維度格式對應至原始較高維度輸入格式,藉此建構原始輸入的有損版本。
自動編碼器接受端對端訓練,解碼器會盡可能嘗試從編碼器中繼格式重建原始輸入內容。由於中間格式比原始格式小 (較低維度),因此自動編碼器必須學習輸入的哪些資訊為重要,而且輸出結果不一定會與輸入內容完全相同。
例如:
- 如果輸入資料是圖形,則非完全相同的副本會與原始圖片類似,但會稍有修改。非精確的文案可能會移除原始圖像中的雜訊,或填滿某些缺少的像素。
- 如果輸入資料是文字,自動編碼器會產生新文字,以模仿 (但不會與) 原始文字完全相同。
另請參閱變化自動編碼器。
自動迴歸模型
根據先前的預測結果推測預測結果的model。例如,自動迴歸語言模型會根據先前預測的符記預測下一個「權杖」。所有以 Transformer 為基礎的大型語言模型都是自動迴歸。
相反地,GAN 的圖片模型通常不是自動迴歸,因為這些模型是以單一向向傳送 (而非步驟) 產生圖片。不過,某些圖片產生模型「是」自動迴歸,因為模型可逐步產生圖片。
B
字包
詞組或段落中字詞的表示法,無論順序為何。舉例來說,字詞包代表下列三個詞組完全相同:
- 狗跳躍
- 跳起來
- 狗跳起來
每個字詞都會對應至「稀疏向量」中的索引,而向量會有詞彙中每個字詞的索引。例如,「the doghops」詞組對應到一個特徵向量,在三個索引對應的三個索引中,the、dog 和 jumps 字詞對應了非零的值。非零值可以是下列任一值:
- 1 表示字詞是否存在。
- 特定字詞在包袋中出現的次數。例如,如果這個詞組為「maroon dog is a dog with maroon furs」,則「maroon」和「dog」都會以 2 表示,其他字詞則以 1 表示。
- 其他值,例如一個字詞在包袋中出現次數的對數。
BERT (基於 Transformer 的雙向編碼器表示法)
文字表示法的模型架構。經過訓練的 BERT 模型可做為大型模型的一部分,用於文字分類或其他機器學習工作。
BERT 具備下列特性:
- 使用 Transformer 架構,因此仰賴自註意。
- 使用 Transformer 的編碼器部分。編碼器的作用是產生良好的文字表示法,而非執行分類等特定工作。
- 為「雙向」。
- 針對非監督式訓練,使用遮蓋功能。
BERT 的變體包括:
如需 BERT 的簡介,請參閱「Open Sourcing BERT:Natural Language Pre-train for Natural Language Processing」。
雙向
這個字詞是用來描述系統評估文字「之後」和「之後」目標部分文字的系統。相對地,「單向」系統僅會評估文字目標區段「之前」的文字。
舉例來說,假設「遮蓋語言模型」必須判定以下問題中代表底線的字詞機率機率:
您覺得 _____?
單向語言模型只能根據「What」、「is」和「the」字詞提供的背景資訊來決定機率。相較之下,雙向語言模型也可從「和」取得背景資訊,協助模型產生更準確的預測結果。
雙向語言模型
「語言模型」:根據前面和後面的文字,判斷指定符記在特定位置中的機率。
Bigram
N=2 的 N-gram。
BLEU (雙語評估研究)
介於 0.0 到 1.0 (含) 之間的分數,表示兩種人類語言的翻譯品質 (例如英文和俄文之間的翻譯品質)。BLEU 分數為 1.0 表示是完美的翻譯;BLEU 分數為 0.0 則代表很糟糕的翻譯。
C
因果語言模型
單向語言模型的同義詞。
請參閱雙向語言模型,瞭解語言模型中對比不同的方向方法。
思維鏈提示
「提示工程」技術,鼓勵大型語言模型 (LLM) 逐步說明其原因。舉例來說,請考慮下列提示,請特別留意第二句:
車內駕駛在 7 秒內每小時 0 至 60 英里的 g 彈力是多少?在答案中顯示所有相關計算結果。
LLM 的回應可能會:
- 顯示一系列物理公式,將值 0、60 和 7 插入適當的位置。
- 說明選用這些公式的原因,以及各種變數代表的意義。
思維鏈提示會強制 LLM 執行所有計算,這或許能產生更正確的答案。此外,思維鏈提示可讓使用者檢查 LLM 的步驟,判斷答案是否合理。
對話
與機器學習系統來回對話的內容,通常是大型語言模型。對話中的過往互動 (您輸入的內容與大型語言模型的回應方式) 會成為聊天後續部分的背景資訊。
「聊天機器人」是大型語言模型的應用程式。
衝突
hallucination 的同義詞。
「集會」一詞的技術精確度可能高於幻覺。但幻覺已成為流行。
組成資料剖析
將句子分割為較小的文法結構 (「組成人」)。 機器學習系統的較後部分 (例如自然語言理解模型) 比原始語句更容易剖析組成成員。例如,請思考以下語句:
我的朋友採用了兩隻貓。
組成剖析器可將這個語句分成以下兩個組成部分:
- 我的朋友是名詞片語,
- 「擁抱兩個貓」是動詞片語。
這些組成可進一步細分為較小的組成項目。 舉例來說
收養兩隻貓
可進一步細分為:
- adopted 為動詞。
- 「two cats」是另一個名詞片語。
內容比對語言嵌入
一個接近「理解」字詞和詞組的嵌入,供母語人士使用。關聯語言嵌入能夠理解複雜的語法、語意和上下文。
例如,考慮嵌入「牛」這個英文字詞。較舊的嵌入 (例如 word2vec) 可代表英文字詞,因此嵌入空間從牛到「火箭」的距離與從「ewe」(女性) (女綿) 到 (男性羊) 到「男性」的距離相近。將特定內容嵌入式語言嵌入能夠更進一步,因為必須瞭解英文使用者有時會使用 cow 一詞來意指牛或公牛。
背景視窗
模型可在指定提示中處理的「權杖」數量。背景視窗越大,模型就能運用更多資訊為提示提供一致且一致的回應。
墜落
意思不明確的句子或詞組。 當機的現象在自然語言理解方面是一項重大問題。舉例來說,「Red Tape Holds Up Skyscraper」標題就是當機事件,因為 NLU 模型可能會以字面或實際方式解讀標題。
D
解碼器
一般來說,任何從已處理、稠密或內部表示法轉換成更原始、稀疏或外部表示法的機器學習系統。
解碼器通常是大型模型的元件,經常與編碼器配對。
在「序列至序列任務」中,解碼器會以編碼器產生的內部狀態開始預測下一個序列。
如要瞭解 Transformer 架構中的解碼器定義,請參閱 Transformer。
雜訊去除
自我監督式學習的常見做法如下:
雜訊去除功能可讓您從未加上標籤的範例中學習。原始資料集可做為目標或標籤,用來做為輸入。
部分遮蓋的語言模型使用雜訊去除功能,如下所示:
- 藉由遮蓋部分符記,人工為未加上標籤的句子加入雜訊。
- 模型會嘗試預測原始符記。
直接提示
零樣本提示的同義詞。
E
編輯距離
比較兩個文字字串彼此間的相似程度。在機器學習中,編輯距離很實用,因為它的計算簡單而且有效地比較兩個已知的相似字串,或尋找與指定字串相似的字串。
「編輯距離」有多種定義,每個都使用不同的字串運算。舉例來說, Levenshtein 距離所考慮的刪除、插入和替代運算次數最少。
例如,「heart」和「darts」這兩個字詞之間的 Levenshtein 距離是 3,因為接下來的 3 項編輯是將一個字轉成另一個字的最少變化:
- 心形 → deart (以「h」取代「h」)
- deart → dart (刪除「e」)
- dart → darts (插入「s」)
嵌入層
一種特殊的「隱藏層」,可在高維度的類別地圖項目上進行訓練,以便逐步學習較低維度嵌入向量。嵌入層可讓類神經網路的訓練更有效率,遠比僅針對高維度類別特徵進行訓練。
舉例來說,Google 地球目前支援約 73,000 棵樹種。假設樹種是模型中的一個特徵,因此模型的輸入層會包含一個長 73,000 個元素的單熱向量。例如,baobab
就能以以下方式表示:
73,000 個元素陣列過長。如果沒有為模型新增嵌入層,由於 72, 999 個零乘以 72,999,因此訓練作業會非常耗時。也許您挑選嵌入層包含 12 個維度因此,嵌入層會逐漸學習每個樹種的新嵌入向量。
在某些情況下,雜湊是嵌入層的合理替代方案。
嵌入空間
系統會對應至較高維度空間特徵的 D 維度向量空間。在理想情況下,嵌入空間內含能產生有意義的數學結果的結構;舉例來說,在理想的嵌入空間中,嵌入的加減法則可解決文字類比工作。
兩個嵌入的內積可測量兩者相似度。
嵌入向量
大致來說,這是從任何隱藏層中擷取的浮點數陣列,用於描述隱藏層的輸入內容。嵌入向量通常是在嵌入層中訓練的浮點數陣列。舉例來說,假設嵌入層必須學習為地球上 73,000 種樹木分別學習一個嵌入向量。也許下列陣列是 Baobab 樹的嵌入向量:
嵌入向量不是一堆隨機數字。嵌入層會透過訓練決定這些值,這類似於類神經網路在訓練期間學習其他權重的方式。陣列的每一個元素都是沿著樹種的特徵評分。哪一個元素代表了什麼樹種的特徵?這很難由人類判斷
嵌入向量在數學上具有數學運算能力的部分,是類似項目具有相似的浮點數組合。例如,類似的樹種擁有比不相似的樹種擁有更多類似的浮點數。紅木和紅杉則是相關的樹種,因此與紅木和椰子手掌相比,兩者的浮點數會更相似。每次重新訓練模型時,嵌入向量中的數字就會改變,即使使用相同的輸入重新訓練模型也一樣。
編碼器
一般而言,任何從原始、稀疏或外部表示法轉換為較高處理、較密集或更內部表示法的機器學習系統。
編碼器通常是大型模型的元件,經常與解碼器配對。部分Transformers 配對編碼器與解碼器會配對,但其他轉換器只會使用編碼器或解碼器。
部分系統會使用編碼器的輸出內容,做為分類或迴歸網路的輸入內容。
在「序列至序列任務」中,編碼器會接收輸入序列,並傳回內部狀態 (向量)。接著,解碼器會使用該內部狀態來預測下一個序列。
如要瞭解 Transformer 架構中的編碼器定義,請參閱 Transformer。
F
少量樣本提示
提示包含多個 (一個「少量」) 的範例,示範大型語言模型應如何回應。舉例來說,以下冗長的提示包含兩個範例,說明大型語言模型如何回答查詢。
單一提示組成部分 | 附註 |
---|---|
指定國家/地區的官方貨幣為何? | 您希望 LLM 回答的問題。 |
法國:歐元 | 其中一個例子。 |
英國:GBP | 另一個例子 |
印度: | 實際查詢。 |
相較於「零樣本提示」和「單樣本提示」,少量樣本提示通常能產生更理想的結果。不過,少量樣本提示需要較長的提示
小提琴
以 Python 優先的設定程式庫,可在沒有侵入式程式碼或基礎架構的情況下設定函式和類別的值。以 Pax 和其他機器學習程式碼集來說,這些函式和類別代表模型和訓練 超參數。
Fiddle 假設機器學習程式碼集通常分為:
- 可定義圖層和最佳化工具的程式庫程式碼。
- 資料集「黏合」程式碼會呼叫程式庫,並將所有資訊連接在一起。
Fiddle 以未評估且可變動的形式擷取膠合程式碼的呼叫結構。
微調
第二項任務專屬訓練通過對預先訓練模型,修正特定用途的參數。例如,某些大型語言模型的完整訓練順序如下:
- 預先訓練:使用大量的「一般」資料集 (例如所有英文的 Wikipedia 頁面) 訓練大型語言模型。
- 微調:訓練預先訓練模型來執行「特定」工作,例如回應醫療查詢。微調通常需要數百或數千個範例來著重於特定工作。
再舉一個例子,大型圖片模型的完整訓練順序如下:
- 預先訓練:使用大量「一般」圖片資料集訓練大型圖片模型,例如 Wikimedia 通用圖片中的所有圖片。
- 微調:訓練預先訓練模型來執行「特定」工作,例如產生 Orcas 的圖片。
微調可採用下列策略的任意組合:
- 修改預先訓練模型的現有所有參數。這種做法有時也稱為「完全微調」。
- 如果您只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的層),其他現有參數則保持不變 (通常是離輸入層的圖層)。請參閱符合參數效率的調整方法相關說明。
- 新增更多圖層,通常位於最接近輸出層的現有層之上。
微調是一種遷移學習。 因此,微調可能使用與訓練預先訓練模型不同的損失函式或模型類型。舉例來說,您可以微調預先訓練的大型圖片模型,以產生可在輸入圖片中傳回鳥類數量的迴歸模型。
使用下列字詞比較並對照微調:
亞麻色
以 JAX 為基礎建構的高效能開放原始碼 程式庫,用於深度學習。Flax 提供「訓練」類神經網路,以及評估其效能的方法。
亞麻色
這是以 Flax 建構的開放原始碼 Transformer 程式庫,主要用於自然語言處理和多模態研究。
G
生成式 AI
新興的轉換欄位,沒有正式的定義。儘管如此,大多數專家都認為生成式 AI 模型可以建立 (「產生」) 的內容如下:
- 複雜
- 一致
- 原始圖片
舉例來說,生成式 AI 模型可以生成複雜的論文或圖片
部分較舊的技術 (包括 LSTM 和 RNN) 也可以產生原創且連貫的內容。有些專家認為這些早期技術就是 生成式 AI,有些則認為
相對於預測機器學習。
GPT (生成式預先訓練的 Transformer)
由 OpenAI 開發的一系列以 Transformer 為基礎的大型語言模型。
GPT 變化版本可套用到多種模式,包括:
- 產生圖片 (例如 ImageGPT)
- 產生文字轉圖片 (例如 DALL-E)。
H
幻覺
透過生成式 AI 模型產生看似合理,但事實卻不正確的輸出內容,但用意是假裝對真實世界的斷言。舉例來說,生成式 AI 模型宣稱巴拉克歐巴馬在 1865 年已死亡。
I
情境學習
少量樣本提示的同義詞。
L
LaMDA (對話應用程式的語言模型)
以 Transformer 為基礎的大型語言模型,由 Google 開發,以大型對話資料集訓練而成,可產生逼真的對話回應。
LaMDA:我們的突破性對話技術提供總覽。
語言模型
這個model會估算「權杖」model或一系列符記序列中發生的符記的機率。
大型語言模型
沒有嚴格定義的非正式字詞,通常是指含有大量參數的語言模型。部分大型語言模型包含超過 1,000 億個參數。
潛在空間
嵌入空間的同義詞。
LLM
大型語言模型的縮寫。
LoRA
「低排名的適應性」的縮寫。
低排名適應性 (LoRA)
用於執行參數效率調整的演算法,僅微調大型語言模型參數的一部分。LoRA 具有以下優點:
- 比起需要微調模型「所有」參數的技術,微調的速度更快。
- 降低經過微調的模型中的推論運算成本。
使用 LoRA 調整的模型會維持或改善預測品質。
LoRA 支援模型的多個特殊版本。
M
遮蓋的語言模型
一種語言模型,可預測候選符記在序列中填入空白的可能性。舉例來說,遮蓋的語言模型可以計算候選字詞的機率,藉此取代以下語句中的底線:
帽子的 ____ 回來了。
這類文獻通常會使用「MASK」字串,而非底線。例如:
帽子的「MASK」回來了。
中繼學習
這是一種機器學習組合,能夠探索或改善學習演算法。中繼學習系統也可以著重在訓練模型,藉由少量資料或先前工作所獲得的經驗,快速學習新工作。中繼學習演算法通常會嘗試達成下列目標:
- 改善或學習手動工程的功能 (例如初始化器或最佳化器)。
- 提高資料成本效益和運算效率。
- 改善一般化功能。
中繼學習與少量樣本學習有關。
形態
高階資料類別。例如數字、文字、圖片、影片和音訊有五種不同的形式
模型平行處理
縮放訓練或推論的方式,將不同部分組成不同model的某個model。模型平行處理功能可啟用過大的模型,無法在單一裝置上運作。
如要實作模型平行處理,系統通常會執行下列作業:
- 將模型分割 (分割) 為較小的部分。
- 將這些小型部分的訓練作業分派至多個處理器。每個處理器都會訓練自己的模型部分。
- 合併結果來建立單一模型。
模型平行處理會減慢訓練速度。
另請參閱「資料平行處理」一文。
多頭式自我注意力
自我注意力的擴充功能,會在輸入序列中的每個位置多次套用自我注意力機制。
變形金引進了多頭自我注意力機制。
多模態模型
此模型的輸入和/或輸出包含多個「形態」。舉例來說,假設某個模型同時採用圖片和文字說明文字 (兩個模數) 做為特徵,然後輸出分數,指出文字說明文字適合圖片的程度。因此,這個模型的輸入內容為多模態,輸出結果則為單模態。
N
自然語言理解
根據使用者輸入或說話的內容判斷使用者的意圖。例如,搜尋引擎會根據使用者輸入或說話的內容,使用自然語言理解來判定使用者搜尋的內容。
N 公克
已排序的 N 個字詞序列。例如「truly madly」是 2 公克。由於順序相關,因此「真的」與「真的生機」是不同的 2 元語法。
N | 這類 N-gram 的名稱 | 示例 |
---|---|---|
2 | Biram 或 2 克 | 外帶、外出、吃午餐、吃晚餐 |
3 | 3 公克 | |
4 | 4 公克 |
許多自然語言理解模型都使用 N 克來預測使用者會輸入或說出的下一個字詞。例如,假設使用者輸入了三條百葉窗。以三元為基礎的 NLU 模型可能會預測使用者接下來會輸入「mice」。
自然語言理解
自然語言理解的縮寫。
O
單樣本提示
提示包含一個範例,示範大型語言模型應如何回應。例如,以下提示含有一個範例,顯示大型語言模型應如何回答查詢。
單一提示組成部分 | 附註 |
---|---|
指定國家/地區的官方貨幣為何? | 您希望 LLM 回答的問題。 |
法國:歐元 | 其中一個例子。 |
印度: | 實際查詢。 |
比較並對照下列字詞:單樣本提示:
P
具參數運用效率的調整作業
使用一套技巧「微調」大型預先訓練模型 (PLM),比完整的微調更有效率。有效率地調整參數的參數通常比完整微調要少得多,但通常會產生大型語言模型,此模型也能執行良好 (或幾乎) 微調建構的大型語言模型。
比較及對照具參數運用效率的調整工具:
「高效參數調整」也稱為「參數效率微調」。
管道
一種「模型平行處理」的一種形式,模型的處理會分成連續階段,而每個階段會在不同的裝置上執行。在階段處理一個批次時,之前的階段則可以處理下一個批次。
另請參閱階段式訓練。
波蘭茲羅提
預先訓練的語言模型的縮寫,
位置編碼
將符記的「位置」相關資訊加入權杖嵌入的技巧。Transformer 模型會使用位置編碼進一步瞭解序列不同部分之間的關係。
位置編碼的常見實作方式會使用正弦函式。 (具體來說,正弦函式的頻率和振幅取決於序列中符記的位置)。這項技巧可讓 Transformer 模型根據位置來學習序列的不同部分。
預先訓練模型
已經訓練的模型或模型元件 (例如嵌入向量)。有時候,您會將預先訓練的嵌入向量饋送至「類神經網路」中。有時,您的模型會自行訓練嵌入向量,而不是依賴預先訓練的嵌入。
預先訓練
在大型資料集中訓練模型的初始訓練。有些預先訓練模型是無害的巨人,通常得透過額外訓練加以修正。舉例來說,機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。在預先訓練之後,產生的模型可以透過下列任一技巧進一步微調:
提示
將任何輸入為大型語言模型輸入的文字,規範模型以特定方式表現的條件。提示可以很短,可以是詞組比對或任意長度 (例如小說的整段文字)。提示分為多個類別,包括下表所示:
提示類別 | 範例 | 附註 |
---|---|---|
問題 | 鴿子的飛行速度有多快? | |
指示 | 撰寫關於套利的有趣詩詞。 | 要求大型語言模型「做」特定操作的提示。 |
範例 | 將 Markdown 程式碼轉譯為 HTML。例如:
Markdown:* 清單項目 HTML:<ul> <li>清單項目</li> </ul> |
此範例提示中的第一個句子是指令。提示的其餘部分為範例。 |
角色 | 說明為何在機器學習訓練中採用梯度下降法,而在物理學系中採用梯度下降法。 | 句子的第一部分是指令,「to a PhD in Physics」用語則是指角色部分。 |
模型待完成的部分輸入內容 | 英國首相 | 部分輸入提示可能會突然結束 (與這個範例相同),或是以底線結尾。 |
生成式 AI 模型可透過文字、程式碼、圖片、嵌入、影片等幾乎任何條件來回應提示。
以提示為基礎的學習
特定模型的功能,可讓模型根據任意文字輸入內容調整行為 (提示)。在一般以提示為基礎的學習範例中,大型語言模型會產生文字來回應提示。舉例來說,假設使用者輸入下列提示:
總結牛頓第三運動定律。
能夠以提示為基礎的學習的模型並未經過特別訓練,因此無法回答先前的提示內容。相反地,模型「知道」許多有關物理的知識、大量有關一般語言規則,以及對於一般實用答案的眾多要素。該知識足以提供 (希望) 有用的答案。而額外的人為意見回饋 (「這個答案太過複雜」或「什麼是反應?」) 可讓一些以提示為主的學習系統,逐步提高答案的實用性。
提示設計
提示工程的同義詞。
提示工程
建立提示,從大型語言模型中取得所需回應的秘訣。人類執行提示工程編寫結構完善的提示,是確保大型語言模型實用回應的重要環節。提示工程取決於許多因素,包括:
如要進一步瞭解如何編寫實用提示,請參閱提示設計簡介。
提示調整
一種參數效率調整機制,可學習系統在實際提示前加上的「前置字串」。
提示調整的其中一種變化版本 (有時稱為「前置字串調整」) 是在「每一個圖層」前面加上前置字串。相對地,大多數提示調整隻會在輸入層加上前置字串。
R
角色提示
這是提示的選用部分,用於識別生成式 AI 模型回應的目標對象。沒有角色提示,大型語言模型會提供答案,不一定對提問者有幫助。大型語言模型「加入」角色提示後,就能以更適當且更適用於特定目標對象的方式回答。舉例來說,以下提示中的角色提示部分會以粗體顯示:
- 請概述經濟學博士的說明文章。
- 說明一歲的人將如何降雨。
- 解釋 2008 年的財務危機。你可能會和小孩子或黃金獵犬說話。
六
自我注意力 (也稱為自我注意力層)
這個類神經網路層可將一連串的嵌入 (例如符記嵌入) 轉換成另一種嵌入。輸出序列中的每個嵌入都是透過「注意力」機制整合輸入序列元素的資訊。
自我部分的「自註意」是指自行出席的序列,而非其他情境。自我注意力是Transformers 的主要建構模塊之一,會使用字典查詢術語,例如「query」、「key」和「value」。
自我注意力層從一系列的輸入表示法開始,每個字詞一個表示法。字詞的輸入表示法可以是簡單的嵌入。對於輸入序列中的每個字詞,網路會針對整個字詞序列中每個字詞的關聯性評分。關聯性分數會決定字詞最終表示法與其他字詞表示法的大致程度。
例如,請思考以下語句:
動物的疲累,因此沒有穿越街道。
下方的插圖 (來自Transformer:語言理解的新型類神經網路架構) 顯示人稱代名詞 的自我注意力層注意力模式,而每條線的暗色代表每個字詞對代表的影響程度:
自註意層會醒目顯示與「it」有關的字詞。在本例中,注意力層已學習醒目顯示「該」可能參照的字詞,並將最高權重指派給「animal」。
在一系列「n」n符記中,自我注意力功能會在序列中的每個位置一次轉換一連串嵌入「n」n次。
情緒分析
使用統計或機器學習演算法來判斷群組對服務、產品、組織或主題的整體態度 (正面或負面)。舉例來說,利用自然語言理解,演算法就能針對大學課程的文字意見回饋執行情緒分析,判斷學生普遍喜歡或不喜歡這門課程的程度。
序列至序列工作
將「權杖」的輸入序列轉換為權杖輸出序列的工作。例如,序列至序列工作有兩種常見的 類型:
- 譯者:
- 輸入序列範例:「我愛你。」
- 輸出序列範例:「Je t'aime。」
- 回答問題:
- 輸入序列範例:「我在紐約市需要我的車嗎?」
- 輸出序列範例:「否,請將車放在家中。」
跳過格
n-gram 可能會從原始情境中省略 (或「略過」) 字詞,這代表 N 字詞原本未置於相鄰位置。更明確地說,「k-skip-n-gram」是一個 n-gram,其中最多可能略過 k 個字詞。
舉例來說,「快速棕色狐狸」有以下可能的 2 公克:
- 「快一點」
- 「快棕色」
- 「棕色狐狸」
「1-skip-2-gram」是兩個字詞間最多只能有 1 個字詞的一組字詞。因此,「快速棕色狐狸」有以下 1 度 2 公克:
- 「棕色」
- 「快速狐狸」
此外,所有 2 公克也「也」是 1 至 2 公克,因為系統可能會略過一個字詞。
如果想進一步瞭解字詞前後的上下文內容,不妨使用「略過圖表」功能。 在此範例中,「fox」與 1-skip-2 公克組合中的「快速」相關聯,但不在 2 公克的組合中。
略過克數有助於訓練字詞嵌入模型。
軟提示調整
一種技巧,可針對特定工作調整大型語言模型,無須耗用大量資源微調調整。這種提示不會重新訓練模型中的所有權重,而是會自動調整「提示」來達成相同目標。
收到文字提示後,軟提示調整通常會將額外的符記嵌入附加至提示,並使用反向傳播來最佳化輸入。
「硬」提示包含實際符記,而非符記嵌入。
稀疏特徵
一個功能,其值主要是零或空白。例如,一個包含單一 1 值和一百萬個 0 值的特徵是稀疏度。相對地,密集特徵的值主要並非零或空白。
在機器學習中,有許多出乎意料的特徵是稀疏的。類別特徵通常是稀疏的特徵。舉例來說,森林中有 300 種可能的樹種,一個例子或許只會辨識一顆楓樹。或者,影片庫中有數百萬部可能的影片 一個例子可以只識別「Casablanca」
在模型中,您通常會以 one-hot 編碼表示稀疏特徵。如果 one-hot 編碼較大,則可在 one-hot 編碼上方放置嵌入層,以提高效率。
稀疏表示法
稀疏功能中只儲存非零元素的位置。
舉例來說,假設有一個名為 species
的類別地圖項目能識別特定森林中的 36 棵樹種。再假設每個範例都只能識別一個物種。
您可以使用 one-hot 向量來表示每個示例中的樹種。一個熱向量會包含單一 1
(在此範例中代表特定樹種) 和 35 個 0
(代表該範例中「不」的 35 種樹種)。因此,maple
的 one-hot 表示法可能會如下所示:
或者,稀疏表示法只會識別特定物種的位置。如果 maple
位於位置 24,則 maple
的稀疏表示法為:
24
請注意,稀疏表示法比 one-hot 表示法更精簡。
階段式訓練
按照離散階段順序訓練模型的策略。目標是加快訓練程序或改善模型品質。
下方為漸進式堆疊方法的插圖:
- 第 1 階段包含 3 個隱藏圖層,階段 2 包含 6 個隱藏圖層,階段 3 則包含 12 個隱藏圖層。
- 第 2 階段以第 1 階段的 3 隱藏層中學到的權重開始訓練。第 3 階段透過第 2 階段 6 隱藏層學到的權重開始訓練。
另請參閱管道相關說明。
子字詞權杖
例如,「itemize」這樣的字詞可能會分成「item」(根字詞) 和「ize」(後置字串) 部分,且每個元素分別以各自的符記表示。將不常見的字詞分成這類片段,稱為「子字詞」,可讓語言模型針對字詞中較常見的組成部分 (例如前置字串和後置字串) 執行運算。
反之,「going」(持續中) 等常見字詞可能不會經過細分,且可能以單一符記表示。
T
T5
Google AI 在 2020 年導入的文字轉文字遷移學習 模型。T5 是編碼器-解碼器模型,以 Transformer 架構為基礎,並以極大型的資料集進行訓練。這項功能適用於多種自然語言處理工作,例如產生文字、翻譯語言,以及以對話方式回答問題。
T5 會從「Text-to-Text Transfer Transformer」(文字轉文字轉換器) 中的五個 T 取得名稱。
超過 5 倍
開放原始碼的機器學習架構,旨在建構及訓練大規模自然語言處理 (NLP) 模型。T5 是在 T5X 程式碼集上實作 (以 JAX 和 Flax 建構)。
溫度
控制模型輸出隨機程度的超參數。隨機性參數越高,隨機輸出的內容越多,而低溫則會產生較少的隨機輸出內容。
視特定應用程式及模型輸出偏好的屬性而定,選擇最佳溫度的做法會有不同。舉例來說,假設您在建立可產生廣告素材輸出內容的應用程式時,可能會提高溫度。相反地,在建構可將圖片或文字分類的模型時,為了提高模型的準確率和一致性,您可能會降低溫度。
溫度通常會與 softmax 搭配使用。
文字時距
與文字字串中特定子區段相關聯的陣列索引時距。例如,Python 字串 s="Be good now"
中的 good
字詞會擷取從 3 到 6 的文字時距。
權杖
在「語言模型」中,這是指模型訓練用於訓練和進行預測的原子單位。符記通常是下列其中一種:
- 舉例來說,「狗等貓」這個詞組包含三個字詞符記:「dogs」、「like」和「cats」。
- 字元,例如「bike fish」這個詞組包含 9 個字元的符記(請注意,空格會計為其中一個符記)。
- 子字詞,意即單一字詞可以是單一符記或多個符記。子字詞是由根字詞、前置字元或後置字元所構成。例如,以子字詞做為符記的語言模型可能會將「dogs」一詞視為兩個符記 (根字詞「dog」和複數後置字串「s」)。這種語言模型可能會將一個「taller」這個單字視為兩個子字詞 (根字詞「tall」和後置字串「er」)。
在語言模型以外的網域中,符記可以代表其他類型的原子單位。舉例來說,在電腦視覺中,符記可能是圖片的子集。
Transformer
在 Google 開發的「類神經網路」架構,以自註意機制為基礎,可將多個輸入嵌入轉換為一系列的輸出嵌入,而不需要依賴卷積或循環類神經網路。Transformer 可以視為自我注意力層的堆疊。
Transformer 可包含下列任一項目:
編碼器會將一系列的嵌入轉換為相同長度的新序列。編碼器包含 N 個相同的層,每個圖層包含兩個子層。這兩個子層會在輸入嵌入序列的每個位置套用,將序列的每個元素轉換成新的嵌入。第一個編碼器子層會匯總整個輸入序列的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入。
解碼器會將一系列的輸入嵌入轉換為一系列輸出嵌入 (長度可能不同的)。解碼器也包含 N 相同的層,其中有三個子層,其中兩個與編碼器子層類似。第三個解碼器子層會接收編碼器的輸出內容,並套用「自註意」機制從中擷取資訊。
網誌文章「Transformer:語言理解的全新類神經網路架構」一文提供 Transformer 的充分簡介。
三元語法
N=3 的 N-gram。
U
單向
只評估文字「早於」目標文字的系統。相反地,雙向系統會一併評估「後方」和「追蹤」目標文字部分的文字。詳情請參閱「雙向」。
單向語言模型
一種語言模型,會根據目標符記「之前」(而非目標符記「之後」) 的權杖來決定其機率。與雙向語言模型之間的對比。
V
變分自動編碼器 (VAE)
一種自動編碼器,利用輸入和輸出之間的差距,產生修改的輸入版本。變分自動編碼器適用於生成式 AI。
VAE 是以變異推論為基礎,這是一種估算機率模型參數的技巧。
三
字詞嵌入
「代表」嵌入向量內字詞集內的各個字詞,也就是將每個字詞表示為介於 0.0 和 1.0 之間的浮點值向量。與含不同含意的字詞相比,有含意涵義的字詞所呈現的意義更為相似。舉例來說,「carrots」、「celery」和「小黃瓜」的表示法都相當類似,因此與「飛機」、「太陽眼鏡」和「牙膏」的表示法截然不同。
Z
零樣本提示
單一提示組成部分 | 附註 |
---|---|
指定國家/地區的官方貨幣為何? | 您希望 LLM 回答的問題。 |
印度: | 實際查詢。 |
大型語言模型可能會以下列任一內容回應:
- 盧比符號
- INR
- ₹
- 印度盧比
- 魯蛇
- 印度盧比
所有答案都正確,但您可能想要使用特定格式。
比較並對照下列字詞:零樣本提示: