本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙解釋：語言評估

本頁包含語言評估詞彙解釋。如需所有詞彙表字詞，請按這裡。

A

注意力

#language

「類神經網路」中使用的機制，表示特定字詞或部分字詞的重要性。注意力會壓縮模型在預測下一個符記/字詞所需的資訊量。一般注意力機制可能包含一組輸入的「加權總和」，其中每個輸入內容的「權重」會由類神經網路的其他部分計算。

另請參閱 自註意力機制和多頭自我注意力，兩者是 Transformer 的建構區塊。

自動編碼器

#language

#image

學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器和解碼器構成。自動編碼器仰賴下列兩個步驟：

編碼器會將輸入對應至 (通常) 有損低維 (中間) 格式。
解碼器會將較低維度格式對應至原始較高維度輸入格式，藉此建構原始輸入的有損版本。

自動編碼器接受端對端訓練，解碼器會盡可能嘗試從編碼器中繼格式重建原始輸入內容。由於中間格式比原始格式小 (較低維度)，因此自動編碼器必須學習輸入的哪些資訊為重要，而且輸出結果不一定會與輸入內容完全相同。

例如：

如果輸入資料是圖形，則非完全相同的副本會與原始圖片類似，但會稍有修改。非精確的文案可能會移除原始圖像中的雜訊，或填滿某些缺少的像素。
如果輸入資料是文字，自動編碼器會產生新文字，以模仿 (但不會與) 原始文字完全相同。

另請參閱變化自動編碼器。

自動迴歸模型

#language

#image

#生成式 AI

根據先前的預測結果推測預測結果的model。例如，自動迴歸語言模型會根據先前預測的符記預測下一個「權杖」。所有以 Transformer 為基礎的大型語言模型都是自動迴歸。

相反地，GAN 的圖片模型通常不是自動迴歸，因為這些模型是以單一向向傳送 (而非步驟) 產生圖片。不過，某些圖片產生模型「是」自動迴歸，因為模型可逐步產生圖片。

B

字包

#language

詞組或段落中字詞的表示法，無論順序為何。舉例來說，字詞包代表下列三個詞組完全相同：

狗跳躍
跳起來
狗跳起來

每個字詞都會對應至「稀疏向量」中的索引，而向量會有詞彙中每個字詞的索引。例如，「the doghops」詞組對應到一個特徵向量，在三個索引對應的三個索引中，the、dog 和 jumps 字詞對應了非零的值。非零值可以是下列任一值：

1 表示字詞是否存在。
特定字詞在包袋中出現的次數。例如，如果這個詞組為「maroon dog is a dog with maroon furs」，則「maroon」和「dog」都會以 2 表示，其他字詞則以 1 表示。
其他值，例如一個字詞在包袋中出現次數的對數。

BERT (基於 Transformer 的雙向編碼器表示法)

#language

文字表示法的模型架構。經過訓練的 BERT 模型可做為大型模型的一部分，用於文字分類或其他機器學習工作。

BERT 具備下列特性：

使用 Transformer 架構，因此仰賴自註意。
使用 Transformer 的編碼器部分。編碼器的作用是產生良好的文字表示法，而非執行分類等特定工作。
為「雙向」。
針對非監督式訓練，使用遮蓋功能。

BERT 的變體包括：

ALBERT 是 A Light BERT 的縮寫。
LaBSE。

如需 BERT 的簡介，請參閱「Open Sourcing BERT：Natural Language Pre-train for Natural Language Processing」。

雙向

#language

這個字詞是用來描述系統評估文字「之後」和「之後」目標部分文字的系統。相對地，「單向」系統僅會評估文字目標區段「之前」的文字。

舉例來說，假設「遮蓋語言模型」必須判定以下問題中代表底線的字詞機率機率：

您覺得 _____？

單向語言模型只能根據「What」、「is」和「the」字詞提供的背景資訊來決定機率。相較之下，雙向語言模型也可從「和」取得背景資訊，協助模型產生更準確的預測結果。

雙向語言模型

#language

「語言模型」：根據前面和後面的文字，判斷指定符記在特定位置中的機率。

Bigram

#seq

#language

N=2 的 N-gram。

BLEU (雙語評估研究)

#language

介於 0.0 到 1.0 (含) 之間的分數，表示兩種人類語言的翻譯品質 (例如英文和俄文之間的翻譯品質)。BLEU 分數為 1.0 表示是完美的翻譯；BLEU 分數為 0.0 則代表很糟糕的翻譯。

C

因果語言模型

#language

單向語言模型的同義詞。

請參閱雙向語言模型，瞭解語言模型中對比不同的方向方法。

思維鏈提示

#language

#生成式 AI

「提示工程」技術，鼓勵大型語言模型 (LLM) 逐步說明其原因。舉例來說，請考慮下列提示，請特別留意第二句：

車內駕駛在 7 秒內每小時 0 至 60 英里的 g 彈力是多少？在答案中顯示所有相關計算結果。

LLM 的回應可能會：

顯示一系列物理公式，將值 0、60 和 7 插入適當的位置。
說明選用這些公式的原因，以及各種變數代表的意義。

思維鏈提示會強制 LLM 執行所有計算，這或許能產生更正確的答案。此外，思維鏈提示可讓使用者檢查 LLM 的步驟，判斷答案是否合理。

對話

#language

#生成式 AI

與機器學習系統來回對話的內容，通常是大型語言模型。對話中的過往互動 (您輸入的內容與大型語言模型的回應方式) 會成為聊天後續部分的背景資訊。

「聊天機器人」是大型語言模型的應用程式。

衝突

#language

hallucination 的同義詞。

「集會」一詞的技術精確度可能高於幻覺。但幻覺已成為流行。

組成資料剖析

#language

將句子分割為較小的文法結構 (「組成人」)。機器學習系統的較後部分 (例如自然語言理解模型) 比原始語句更容易剖析組成成員。例如，請思考以下語句：

我的朋友採用了兩隻貓。

組成剖析器可將這個語句分成以下兩個組成部分：

我的朋友是名詞片語，
「擁抱兩個貓」是動詞片語。

這些組成可進一步細分為較小的組成項目。舉例來說

收養兩隻貓

可進一步細分為：

adopted 為動詞。
「two cats」是另一個名詞片語。

內容比對語言嵌入

#language

#生成式 AI

一個接近「理解」字詞和詞組的嵌入，供母語人士使用。關聯語言嵌入能夠理解複雜的語法、語意和上下文。

例如，考慮嵌入「牛」這個英文字詞。較舊的嵌入 (例如 word2vec) 可代表英文字詞，因此嵌入空間從牛到「火箭」的距離與從「ewe」(女性) (女綿) 到 (男性羊) 到「男性」的距離相近。將特定內容嵌入式語言嵌入能夠更進一步，因為必須瞭解英文使用者有時會使用 cow 一詞來意指牛或公牛。

背景視窗

#language

#生成式 AI

模型可在指定提示中處理的「權杖」數量。背景視窗越大，模型就能運用更多資訊為提示提供一致且一致的回應。

墜落

#language

意思不明確的句子或詞組。當機的現象在自然語言理解方面是一項重大問題。舉例來說，「Red Tape Holds Up Skyscraper」標題就是當機事件，因為 NLU 模型可能會以字面或實際方式解讀標題。

按一下圖示即可查看更多附註。

在此說明神秘的標題：

紅膠帶可能代表下列任一情況：
- 黏膠
- 過多的官僚體系
通話等待可能是指下列其中一種：
- 結構支援
- 延遲入帳

D

解碼器

#language

一般來說，任何從已處理、稠密或內部表示法轉換成更原始、稀疏或外部表示法的機器學習系統。

解碼器通常是大型模型的元件，經常與編碼器配對。

在「序列至序列任務」中，解碼器會以編碼器產生的內部狀態開始預測下一個序列。

如要瞭解 Transformer 架構中的解碼器定義，請參閱 Transformer。

雜訊去除

#language

自我監督式學習的常見做法如下：

人為在資料集中新增雜訊。
而model會嘗試移除雜訊。

雜訊去除功能可讓您從未加上標籤的範例中學習。原始資料集可做為目標或標籤，用來做為輸入。

部分遮蓋的語言模型使用雜訊去除功能，如下所示：

藉由遮蓋部分符記，人工為未加上標籤的句子加入雜訊。
模型會嘗試預測原始符記。

直接提示

#language

#生成式 AI

零樣本提示的同義詞。

E

編輯距離

#language

比較兩個文字字串彼此間的相似程度。在機器學習中，編輯距離很實用，因為它的計算簡單而且有效地比較兩個已知的相似字串，或尋找與指定字串相似的字串。

「編輯距離」有多種定義，每個都使用不同的字串運算。舉例來說， Levenshtein 距離所考慮的刪除、插入和替代運算次數最少。

例如，「heart」和「darts」這兩個字詞之間的 Levenshtein 距離是 3，因為接下來的 3 項編輯是將一個字轉成另一個字的最少變化：

心形 → deart (以「h」取代「h」)
deart → dart (刪除「e」)
dart → darts (插入「s」)

嵌入層

#language

#fundamentals

一種特殊的「隱藏層」，可在高維度的類別地圖項目上進行訓練，以便逐步學習較低維度嵌入向量。嵌入層可讓類神經網路的訓練更有效率，遠比僅針對高維度類別特徵進行訓練。

舉例來說，Google 地球目前支援約 73,000 棵樹種。假設樹種是模型中的一個特徵，因此模型的輸入層會包含一個長 73,000 個元素的單熱向量。例如，baobab 就能以以下方式表示：

由 73,000 個元素的陣列。前 6,232 個元素的值為 0。下一個元素包含的值 1。最後一個 66,767 元素的值為 0。

73,000 個元素陣列過長。如果沒有為模型新增嵌入層，由於 72, 999 個零乘以 72,999，因此訓練作業會非常耗時。也許您挑選嵌入層包含 12 個維度因此，嵌入層會逐漸學習每個樹種的新嵌入向量。

在某些情況下，雜湊是嵌入層的合理替代方案。

嵌入空間

#language

系統會對應至較高維度空間特徵的 D 維度向量空間。在理想情況下，嵌入空間內含能產生有意義的數學結果的結構；舉例來說，在理想的嵌入空間中，嵌入的加減法則可解決文字類比工作。

兩個嵌入的內積可測量兩者相似度。

嵌入向量

#language

大致來說，這是從任何隱藏層中擷取的浮點數陣列，用於描述隱藏層的輸入內容。嵌入向量通常是在嵌入層中訓練的浮點數陣列。舉例來說，假設嵌入層必須學習為地球上 73,000 種樹木分別學習一個嵌入向量。也許下列陣列是 Baobab 樹的嵌入向量：

12 個元素的陣列，每個元素都有介於 0.0 和 1.0 之間的浮點數。

嵌入向量不是一堆隨機數字。嵌入層會透過訓練決定這些值，這類似於類神經網路在訓練期間學習其他權重的方式。陣列的每一個元素都是沿著樹種的特徵評分。哪一個元素代表了什麼樹種的特徵？這很難由人類判斷

嵌入向量在數學上具有數學運算能力的部分，是類似項目具有相似的浮點數組合。例如，類似的樹種擁有比不相似的樹種擁有更多類似的浮點數。紅木和紅杉則是相關的樹種，因此與紅木和椰子手掌相比，兩者的浮點數會更相似。每次重新訓練模型時，嵌入向量中的數字就會改變，即使使用相同的輸入重新訓練模型也一樣。

編碼器

#language

一般而言，任何從原始、稀疏或外部表示法轉換為較高處理、較密集或更內部表示法的機器學習系統。

編碼器通常是大型模型的元件，經常與解碼器配對。部分Transformers 配對編碼器與解碼器會配對，但其他轉換器只會使用編碼器或解碼器。

部分系統會使用編碼器的輸出內容，做為分類或迴歸網路的輸入內容。

在「序列至序列任務」中，編碼器會接收輸入序列，並傳回內部狀態 (向量)。接著，解碼器會使用該內部狀態來預測下一個序列。

如要瞭解 Transformer 架構中的編碼器定義，請參閱 Transformer。

F

少量樣本提示

#language

#生成式 AI

提示包含多個 (一個「少量」) 的範例，示範大型語言模型應如何回應。舉例來說，以下冗長的提示包含兩個範例，說明大型語言模型如何回答查詢。

單一提示組成部分	附註
`指定國家/地區的官方貨幣為何？`	您希望 LLM 回答的問題。
`法國：歐元`	其中一個例子。
`英國：GBP`	另一個例子
`印度：`	實際查詢。

相較於「零樣本提示」和「單樣本提示」，少量樣本提示通常能產生更理想的結果。不過，少量樣本提示需要較長的提示

少量樣本提示是少量樣本學習的一種形式，適用於提示式學習。

小提琴

#language

以 Python 優先的設定程式庫，可在沒有侵入式程式碼或基礎架構的情況下設定函式和類別的值。以 Pax 和其他機器學習程式碼集來說，這些函式和類別代表模型和訓練 超參數。

Fiddle 假設機器學習程式碼集通常分為：

可定義圖層和最佳化工具的程式庫程式碼。
資料集「黏合」程式碼會呼叫程式庫，並將所有資訊連接在一起。

Fiddle 以未評估且可變動的形式擷取膠合程式碼的呼叫結構。

微調

#language

#image

#生成式 AI

第二項任務專屬訓練通過對預先訓練模型，修正特定用途的參數。例如，某些大型語言模型的完整訓練順序如下：

預先訓練：使用大量的「一般」資料集 (例如所有英文的 Wikipedia 頁面) 訓練大型語言模型。
微調：訓練預先訓練模型來執行「特定」工作，例如回應醫療查詢。微調通常需要數百或數千個範例來著重於特定工作。

再舉一個例子，大型圖片模型的完整訓練順序如下：

預先訓練：使用大量「一般」圖片資料集訓練大型圖片模型，例如 Wikimedia 通用圖片中的所有圖片。
微調：訓練預先訓練模型來執行「特定」工作，例如產生 Orcas 的圖片。

微調可採用下列策略的任意組合：

修改預先訓練模型的現有所有參數。這種做法有時也稱為「完全微調」。
如果您只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的層)，其他現有參數則保持不變 (通常是離輸入層的圖層)。請參閱符合參數效率的調整方法相關說明。
新增更多圖層，通常位於最接近輸出層的現有層之上。

微調是一種遷移學習。因此，微調可能使用與訓練預先訓練模型不同的損失函式或模型類型。舉例來說，您可以微調預先訓練的大型圖片模型，以產生可在輸入圖片中傳回鳥類數量的迴歸模型。

使用下列字詞比較並對照微調：

精煉
提示式學習

亞麻色

#language

以 JAX 為基礎建構的高效能開放原始碼程式庫，用於深度學習。Flax 提供「訓練」類神經網路，以及評估其效能的方法。

亞麻色

#language

這是以 Flax 建構的開放原始碼 Transformer 程式庫，主要用於自然語言處理和多模態研究。

G

生成式 AI

#language

#image

#生成式 AI

新興的轉換欄位，沒有正式的定義。儘管如此，大多數專家都認為生成式 AI 模型可以建立 (「產生」) 的內容如下：

複雜
一致
原始圖片

舉例來說，生成式 AI 模型可以生成複雜的論文或圖片

部分較舊的技術 (包括 LSTM 和 RNN) 也可以產生原創且連貫的內容。有些專家認為這些早期技術就是生成式 AI，有些則認為

相對於預測機器學習。

GPT (生成式預先訓練的 Transformer)

#language

由 OpenAI 開發的一系列以 Transformer 為基礎的大型語言模型。

GPT 變化版本可套用到多種模式，包括：

產生圖片 (例如 ImageGPT)
產生文字轉圖片 (例如 DALL-E)。

H

幻覺

#language

透過生成式 AI 模型產生看似合理，但事實卻不正確的輸出內容，但用意是假裝對真實世界的斷言。舉例來說，生成式 AI 模型宣稱巴拉克歐巴馬在 1865 年已死亡。

I

情境學習

#language

#生成式 AI

少量樣本提示的同義詞。

L

LaMDA (對話應用程式的語言模型)

#language

以 Transformer 為基礎的大型語言模型，由 Google 開發，以大型對話資料集訓練而成，可產生逼真的對話回應。

LaMDA：我們的突破性對話技術提供總覽。

語言模型

#language

這個model會估算「權杖」model或一系列符記序列中發生的符記的機率。

按一下圖示即可查看更多附註。

雖然不太直覺易懂，但許多用來評估文字的模型並非語言模型。舉例來說，文字分類模型和情緒分析模型不是「語言模型」。

大型語言模型

#language

沒有嚴格定義的非正式字詞，通常是指含有大量參數的語言模型。部分大型語言模型包含超過 1,000 億個參數。

按一下圖示即可查看更多附註。

您可能很好奇，語言模型變得夠大，足以稱為「大型語言模型」。目前我們尚未就參數數量定義行。

目前的大型語言模型 (例如 GPT) 是以 Transformer 架構為基礎。

潛在空間

#language

嵌入空間的同義詞。

LLM

#language

大型語言模型的縮寫。

LoRA

#language

#生成式 AI

「低排名的適應性」的縮寫。

低排名適應性 (LoRA)

#language

#生成式 AI

用於執行參數效率調整的演算法，僅微調 大型語言模型參數的一部分。LoRA 具有以下優點：

比起需要微調模型「所有」參數的技術，微調的速度更快。
降低經過微調的模型中的推論運算成本。

使用 LoRA 調整的模型會維持或改善預測品質。

LoRA 支援模型的多個特殊版本。

M

遮蓋的語言模型

#language

一種語言模型，可預測候選符記在序列中填入空白的可能性。舉例來說，遮蓋的語言模型可以計算候選字詞的機率，藉此取代以下語句中的底線：

帽子的 ____ 回來了。

這類文獻通常會使用「MASK」字串，而非底線。例如：

帽子的「MASK」回來了。

大多數新型遮蓋語言模型為「雙向」。

中繼學習

#language

這是一種機器學習組合，能夠探索或改善學習演算法。中繼學習系統也可以著重在訓練模型，藉由少量資料或先前工作所獲得的經驗，快速學習新工作。中繼學習演算法通常會嘗試達成下列目標：

改善或學習手動工程的功能 (例如初始化器或最佳化器)。
提高資料成本效益和運算效率。
改善一般化功能。

中繼學習與少量樣本學習有關。

形態

#language

高階資料類別。例如數字、文字、圖片、影片和音訊有五種不同的形式

模型平行處理

#language

縮放訓練或推論的方式，將不同部分組成不同model的某個model。模型平行處理功能可啟用過大的模型，無法在單一裝置上運作。

如要實作模型平行處理，系統通常會執行下列作業：

將模型分割 (分割) 為較小的部分。
將這些小型部分的訓練作業分派至多個處理器。每個處理器都會訓練自己的模型部分。
合併結果來建立單一模型。

模型平行處理會減慢訓練速度。

另請參閱「資料平行處理」一文。

多頭式自我注意力

#language

自我注意力的擴充功能，會在輸入序列中的每個位置多次套用自我注意力機制。

變形金引進了多頭自我注意力機制。

多模態模型

#language

此模型的輸入和/或輸出包含多個「形態」。舉例來說，假設某個模型同時採用圖片和文字說明文字 (兩個模數) 做為特徵，然後輸出分數，指出文字說明文字適合圖片的程度。因此，這個模型的輸入內容為多模態，輸出結果則為單模態。

N

自然語言理解

#language

根據使用者輸入或說話的內容判斷使用者的意圖。例如，搜尋引擎會根據使用者輸入或說話的內容，使用自然語言理解來判定使用者搜尋的內容。

N 公克

#seq

#language

已排序的 N 個字詞序列。例如「truly madly」是 2 公克。由於順序相關，因此「真的」與「真的生機」是不同的 2 元語法。

N	這類 N-gram 的名稱	示例
2	Biram 或 2 克	外帶、外出、吃午餐、吃晚餐
3	3 公克
4	4 公克

許多自然語言理解模型都使用 N 克來預測使用者會輸入或說出的下一個字詞。例如，假設使用者輸入了三條百葉窗。以三元為基礎的 NLU 模型可能會預測使用者接下來會輸入「mice」。

比較 N 克與「詞袋」(未排序的字詞組合)。

自然語言理解

#language

自然語言理解的縮寫。

O

單樣本提示

#language

#生成式 AI

提示包含一個範例，示範大型語言模型應如何回應。例如，以下提示含有一個範例，顯示大型語言模型應如何回答查詢。

單一提示組成部分	附註
`指定國家/地區的官方貨幣為何？`	您希望 LLM 回答的問題。
`法國：歐元`	其中一個例子。
`印度：`	實際查詢。

比較並對照下列字詞：單樣本提示：

零樣本提示
少量樣本提示

P

具參數運用效率的調整作業

#language

#生成式 AI

使用一套技巧「微調」大型預先訓練模型 (PLM)，比完整的微調更有效率。有效率地調整參數的參數通常比完整微調要少得多，但通常會產生大型語言模型，此模型也能執行良好 (或幾乎) 微調建構的大型語言模型。

比較及對照具參數運用效率的調整工具：

「高效參數調整」也稱為「參數效率微調」。

管道

#language

一種「模型平行處理」的一種形式，模型的處理會分成連續階段，而每個階段會在不同的裝置上執行。在階段處理一個批次時，之前的階段則可以處理下一個批次。

另請參閱階段式訓練。

波蘭茲羅提

#language

#生成式 AI

預先訓練的語言模型的縮寫，

位置編碼

#language

將符記的「位置」相關資訊加入權杖嵌入的技巧。Transformer 模型會使用位置編碼進一步瞭解序列不同部分之間的關係。

位置編碼的常見實作方式會使用正弦函式。 (具體來說，正弦函式的頻率和振幅取決於序列中符記的位置)。這項技巧可讓 Transformer 模型根據位置來學習序列的不同部分。

預先訓練模型

#language

#image

#生成式 AI

已經訓練的模型或模型元件 (例如嵌入向量)。有時候，您會將預先訓練的嵌入向量饋送至「類神經網路」中。有時，您的模型會自行訓練嵌入向量，而不是依賴預先訓練的嵌入。

「預先訓練模型」一詞是指在通過預先訓練的大型語言模型。

預先訓練

#language

#image

#生成式 AI

在大型資料集中訓練模型的初始訓練。有些預先訓練模型是無害的巨人，通常得透過額外訓練加以修正。舉例來說，機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。在預先訓練之後，產生的模型可以透過下列任一技巧進一步微調：

精煉
微調
調整指示
高效參數調整
提示調整

提示

#language

#生成式 AI

將任何輸入為大型語言模型輸入的文字，規範模型以特定方式表現的條件。提示可以很短，可以是詞組比對或任意長度 (例如小說的整段文字)。提示分為多個類別，包括下表所示：

提示類別	範例	附註
問題	`鴿子的飛行速度有多快？`
指示	`撰寫關於套利的有趣詩詞。`	要求大型語言模型「做」特定操作的提示。
範例	`將 Markdown 程式碼轉譯為 HTML。例如： Markdown：* 清單項目 HTML：<ul> <li>清單項目</li> </ul>`	此範例提示中的第一個句子是指令。提示的其餘部分為範例。
角色	`說明為何在機器學習訓練中採用梯度下降法，而在物理學系中採用梯度下降法。`	句子的第一部分是指令，「to a PhD in Physics」用語則是指角色部分。
模型待完成的部分輸入內容	`英國首相`	部分輸入提示可能會突然結束 (與這個範例相同)，或是以底線結尾。

生成式 AI 模型可透過文字、程式碼、圖片、嵌入、影片等幾乎任何條件來回應提示。

以提示為基礎的學習

#language

#生成式 AI

特定模型的功能，可讓模型根據任意文字輸入內容調整行為 (提示)。在一般以提示為基礎的學習範例中，大型語言模型會產生文字來回應提示。舉例來說，假設使用者輸入下列提示：

總結牛頓第三運動定律。

能夠以提示為基礎的學習的模型並未經過特別訓練，因此無法回答先前的提示內容。相反地，模型「知道」許多有關物理的知識、大量有關一般語言規則，以及對於一般實用答案的眾多要素。該知識足以提供 (希望) 有用的答案。而額外的人為意見回饋 (「這個答案太過複雜」或「什麼是反應？」) 可讓一些以提示為主的學習系統，逐步提高答案的實用性。

提示設計

#language

#生成式 AI

提示工程的同義詞。

提示工程

#language

#生成式 AI

建立提示，從大型語言模型中取得所需回應的秘訣。人類執行提示工程編寫結構完善的提示，是確保大型語言模型實用回應的重要環節。提示工程取決於許多因素，包括：

用於「預先訓練」，並可能「微調」大型語言模型的資料集。
溫度和其他模型用來產生回應的解碼參數。

如要進一步瞭解如何編寫實用提示，請參閱提示設計簡介。

「提示設計」是「提示工程」的同義詞。

提示調整

#language

#生成式 AI

一種參數效率調整機制，可學習系統在實際提示前加上的「前置字串」。

提示調整的其中一種變化版本 (有時稱為「前置字串調整」) 是在「每一個圖層」前面加上前置字串。相對地，大多數提示調整隻會在輸入層加上前置字串。

點選圖示即可進一步瞭解前置字串。

對提示調整來說，「前置字元」(也稱為「軟提示」) 是一組已知的任務專用向量，會在實際提示的內嵌文字符記前面加上片段。系統會凍結所有其他模型參數並微調特定工作，藉此學習軟提示。

R

角色提示

#language

#生成式 AI

這是提示的選用部分，用於識別生成式 AI 模型回應的目標對象。沒有角色提示，大型語言模型會提供答案，不一定對提問者有幫助。大型語言模型「加入」角色提示後，就能以更適當且更適用於特定目標對象的方式回答。舉例來說，以下提示中的角色提示部分會以粗體顯示：

請概述經濟學博士的說明文章。
說明一歲的人將如何降雨。
解釋 2008 年的財務危機。你可能會和小孩子或黃金獵犬說話。

六

自我注意力 (也稱為自我注意力層)

#language

這個類神經網路層可將一連串的嵌入 (例如符記嵌入) 轉換成另一種嵌入。輸出序列中的每個嵌入都是透過「注意力」機制整合輸入序列元素的資訊。

自我部分的「自註意」是指自行出席的序列，而非其他情境。自我注意力是Transformers 的主要建構模塊之一，會使用字典查詢術語，例如「query」、「key」和「value」。

自我注意力層從一系列的輸入表示法開始，每個字詞一個表示法。字詞的輸入表示法可以是簡單的嵌入。對於輸入序列中的每個字詞，網路會針對整個字詞序列中每個字詞的關聯性評分。關聯性分數會決定字詞最終表示法與其他字詞表示法的大致程度。

例如，請思考以下語句：

動物的疲累，因此沒有穿越街道。

下方的插圖 (來自Transformer：語言理解的新型類神經網路架構) 顯示人稱代名詞的自我注意力層注意力模式，而每條線的暗色代表每個字詞對代表的影響程度：

以下句子出現兩次：由於動物疲倦，因此沒有穿越街道。這行可將人稱代名詞從一個句子中連結至另一個語句中的五個符記 (即動物、街道、句號和句號)。人稱代名詞與動物文字之間的線段最強。

自註意層會醒目顯示與「it」有關的字詞。在本例中，注意力層已學習醒目顯示「該」可能參照的字詞，並將最高權重指派給「animal」。

在一系列「n」n符記中，自我注意力功能會在序列中的每個位置一次轉換一連串嵌入「n」n次。

另請參閱注意力和多頭人自我注意力相關文章。

情緒分析

#language

使用統計或機器學習演算法來判斷群組對服務、產品、組織或主題的整體態度 (正面或負面)。舉例來說，利用自然語言理解，演算法就能針對大學課程的文字意見回饋執行情緒分析，判斷學生普遍喜歡或不喜歡這門課程的程度。

序列至序列工作

#language

將「權杖」的輸入序列轉換為權杖輸出序列的工作。例如，序列至序列工作有兩種常見的類型：

譯者：
- 輸入序列範例：「我愛你。」
- 輸出序列範例：「Je t'aime。」
回答問題：
- 輸入序列範例：「我在紐約市需要我的車嗎？」
- 輸出序列範例：「否，請將車放在家中。」

跳過格

#language

n-gram 可能會從原始情境中省略 (或「略過」) 字詞，這代表 N 字詞原本未置於相鄰位置。更明確地說，「k-skip-n-gram」是一個 n-gram，其中最多可能略過 k 個字詞。

舉例來說，「快速棕色狐狸」有以下可能的 2 公克：

「快一點」
「快棕色」
「棕色狐狸」

「1-skip-2-gram」是兩個字詞間最多只能有 1 個字詞的一組字詞。因此，「快速棕色狐狸」有以下 1 度 2 公克：

「棕色」
「快速狐狸」

此外，所有 2 公克也「也」是 1 至 2 公克，因為系統可能會略過一個字詞。

如果想進一步瞭解字詞前後的上下文內容，不妨使用「略過圖表」功能。在此範例中，「fox」與 1-skip-2 公克組合中的「快速」相關聯，但不在 2 公克的組合中。

略過克數有助於訓練字詞嵌入模型。

軟提示調整

#language

#生成式 AI

一種技巧，可針對特定工作調整大型語言模型，無須耗用大量資源微調調整。這種提示不會重新訓練模型中的所有權重，而是會自動調整「提示」來達成相同目標。

收到文字提示後，軟提示調整通常會將額外的符記嵌入附加至提示，並使用反向傳播來最佳化輸入。

「硬」提示包含實際符記，而非符記嵌入。

稀疏特徵

#language

#fundamentals

一個功能，其值主要是零或空白。例如，一個包含單一 1 值和一百萬個 0 值的特徵是稀疏度。相對地，密集特徵的值主要並非零或空白。

在機器學習中，有許多出乎意料的特徵是稀疏的。類別特徵通常是稀疏的特徵。舉例來說，森林中有 300 種可能的樹種，一個例子或許只會辨識一顆楓樹。或者，影片庫中有數百萬部可能的影片一個例子可以只識別「Casablanca」

在模型中，您通常會以 one-hot 編碼表示稀疏特徵。如果 one-hot 編碼較大，則可在 one-hot 編碼上方放置嵌入層，以提高效率。

稀疏表示法

#language

#fundamentals

稀疏功能中只儲存非零元素的位置。

舉例來說，假設有一個名為 species 的類別地圖項目能識別特定森林中的 36 棵樹種。再假設每個範例都只能識別一個物種。

您可以使用 one-hot 向量來表示每個示例中的樹種。一個熱向量會包含單一 1 (在此範例中代表特定樹種) 和 35 個 0 (代表該範例中「不」的 35 種樹種)。因此，maple 的 one-hot 表示法可能會如下所示：

位置 0 到 23 的向量會保留值 0，位置 24 代表值 1，位置 25 至 35 則代表值 0。

或者，稀疏表示法只會識別特定物種的位置。如果 maple 位於位置 24，則 maple 的稀疏表示法為：

請注意，稀疏表示法比 one-hot 表示法更精簡。

按一下圖示即可查看稍微複雜的範例。

假設模型中的每個範例都必須以英文句子代表字詞，但不能代表這些字詞的順序。英文包含約 170,000 個字詞，因此英文是一種類別地圖項目，約有 170,000 個元素。在這 170,000 個字中，大多數英文語句使用的數字幾乎是極小，因此單一範例中的字詞組合幾乎肯定是稀疏的資料。

請看看以下語句：

My dog is a great dog

您可以使用 one-hot 向量的變體來代表這個語句中的字詞。在這個變因中，向量中的多個儲存格可以含有非零的值。再者，在這個變因中，儲存格可含有非一個整數。雖然「my」、「is」、「a」和「great」這兩個字詞只在句子中出現一次，但「dog」這個字出現兩次。使用這個 one-hot 向量的變體來表示該語句中的字詞後，會產生下列 170,000 個元素向量：

同一句的稀疏表示法：

如果您不清楚，請按一下該圖示。

「稀疏表示法」一詞會對許多人造成混淆，因為稀疏表示法本身並非稀疏向量。相反地，稀疏表示法實際上是稀疏向量的密集表示法。同義詞的「索引表示法」比「稀疏表示法」稍微清楚。

階段式訓練

#language

按照離散階段順序訓練模型的策略。目標是加快訓練程序或改善模型品質。

下方為漸進式堆疊方法的插圖：

第 1 階段包含 3 個隱藏圖層，階段 2 包含 6 個隱藏圖層，階段 3 則包含 12 個隱藏圖層。
第 2 階段以第 1 階段的 3 隱藏層中學到的權重開始訓練。第 3 階段透過第 2 階段 6 隱藏層學到的權重開始訓練。

三個階段，分別標示為第 1 階段、第 2 階段和第 3 階段。每個階段都包含不同圖層：第 1 階段包含 3 個圖層，第 2 階段包含 6 個圖層，第 3 階段則包含 12 個圖層。第 1 階段的 3 個圖層會成為第 2 階段的前 3 個層。同樣地，第 2 階段的 6 層會成為第 3 階段的前 6 層。

另請參閱管道相關說明。

子字詞權杖

#language

在「語言模型」中，符記是字詞的子字串，可能是整個字詞。

例如，「itemize」這樣的字詞可能會分成「item」(根字詞) 和「ize」(後置字串) 部分，且每個元素分別以各自的符記表示。將不常見的字詞分成這類片段，稱為「子字詞」，可讓語言模型針對字詞中較常見的組成部分 (例如前置字串和後置字串) 執行運算。

反之，「going」(持續中) 等常見字詞可能不會經過細分，且可能以單一符記表示。

T

T5

#language

Google AI 在 2020 年導入的文字轉文字遷移學習 模型。T5 是編碼器-解碼器模型，以 Transformer 架構為基礎，並以極大型的資料集進行訓練。這項功能適用於多種自然語言處理工作，例如產生文字、翻譯語言，以及以對話方式回答問題。

T5 會從「Text-to-Text Transfer Transformer」(文字轉文字轉換器) 中的五個 T 取得名稱。

超過 5 倍

#language

開放原始碼的機器學習架構，旨在建構及訓練大規模自然語言處理 (NLP) 模型。T5 是在 T5X 程式碼集上實作 (以 JAX 和 Flax 建構)。

溫度

#language

#image

#生成式 AI

控制模型輸出隨機程度的超參數。隨機性參數越高，隨機輸出的內容越多，而低溫則會產生較少的隨機輸出內容。

視特定應用程式及模型輸出偏好的屬性而定，選擇最佳溫度的做法會有不同。舉例來說，假設您在建立可產生廣告素材輸出內容的應用程式時，可能會提高溫度。相反地，在建構可將圖片或文字分類的模型時，為了提高模型的準確率和一致性，您可能會降低溫度。

溫度通常會與 softmax 搭配使用。

文字時距

#language

與文字字串中特定子區段相關聯的陣列索引時距。例如，Python 字串 s="Be good now" 中的 good 字詞會擷取從 3 到 6 的文字時距。

權杖

#language

在「語言模型」中，這是指模型訓練用於訓練和進行預測的原子單位。符記通常是下列其中一種：

舉例來說，「狗等貓」這個詞組包含三個字詞符記：「dogs」、「like」和「cats」。
字元，例如「bike fish」這個詞組包含 9 個字元的符記(請注意，空格會計為其中一個符記)。
子字詞，意即單一字詞可以是單一符記或多個符記。子字詞是由根字詞、前置字元或後置字元所構成。例如，以子字詞做為符記的語言模型可能會將「dogs」一詞視為兩個符記 (根字詞「dog」和複數後置字串「s」)。這種語言模型可能會將一個「taller」這個單字視為兩個子字詞 (根字詞「tall」和後置字串「er」)。

在語言模型以外的網域中，符記可以代表其他類型的原子單位。舉例來說，在電腦視覺中，符記可能是圖片的子集。

Transformer

#language

在 Google 開發的「類神經網路」架構，以自註意機制為基礎，可將多個輸入嵌入轉換為一系列的輸出嵌入，而不需要依賴卷積或循環類神經網路。Transformer 可以視為自我注意力層的堆疊。

Transformer 可包含下列任一項目：

編碼器

解碼器

編碼器與解碼器模型

編碼器會將一系列的嵌入轉換為相同長度的新序列。編碼器包含 N 個相同的層，每個圖層包含兩個子層。這兩個子層會在輸入嵌入序列的每個位置套用，將序列的每個元素轉換成新的嵌入。第一個編碼器子層會匯總整個輸入序列的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入。

解碼器會將一系列的輸入嵌入轉換為一系列輸出嵌入 (長度可能不同的)。解碼器也包含 N 相同的層，其中有三個子層，其中兩個與編碼器子層類似。第三個解碼器子層會接收編碼器的輸出內容，並套用「自註意」機制從中擷取資訊。

網誌文章「Transformer：語言理解的全新類神經網路架構」一文提供 Transformer 的充分簡介。

三元語法

#seq

#language

N=3 的 N-gram。

U

單向

#language

只評估文字「早於」目標文字的系統。相反地，雙向系統會一併評估「後方」和「追蹤」目標文字部分的文字。詳情請參閱「雙向」。

單向語言模型

#language

一種語言模型，會根據目標符記「之前」(而非目標符記「之後」) 的權杖來決定其機率。與雙向語言模型之間的對比。

V

變分自動編碼器 (VAE)

#language

一種自動編碼器，利用輸入和輸出之間的差距，產生修改的輸入版本。變分自動編碼器適用於生成式 AI。

VAE 是以變異推論為基礎，這是一種估算機率模型參數的技巧。

三

字詞嵌入

#language

「代表」嵌入向量內字詞集內的各個字詞，也就是將每個字詞表示為介於 0.0 和 1.0 之間的浮點值向量。與含不同含意的字詞相比，有含意涵義的字詞所呈現的意義更為相似。舉例來說，「carrots」、「celery」和「小黃瓜」的表示法都相當類似，因此與「飛機」、「太陽眼鏡」和「牙膏」的表示法截然不同。

Z

零樣本提示

#language

#生成式 AI

提示「未」提供您想要大型語言模型回應方式的範例。例如：

單一提示組成部分附註

指定國家/地區的官方貨幣為何？ 您希望 LLM 回答的問題。

印度： 實際查詢。

大型語言模型可能會以下列任一內容回應：

盧比符號

INR

₹

印度盧比

魯蛇

印度盧比

所有答案都正確，但您可能想要使用特定格式。

比較並對照下列字詞：零樣本提示：

單樣本提示

少量樣本提示