本頁面包含生成式 AI 的詞彙表。如要查看所有詞彙表術語,請按這裡。
A
自動評估
使用軟體判斷模型輸出內容的品質。
如果模型輸出內容相對簡單,指令碼或程式可以將模型輸出內容與黃金回應進行比較。這類自動評估有時也稱為程式評估。ROUGE 或 BLEU 等指標通常可用於程式評估。
如果模型輸出內容複雜,或沒有單一正確答案,系統有時會使用稱為自動評分器的獨立機器學習程式自動評估。
請參閱人工評估。
自動產生器評估
混合機制,結合人工評估和自動評估,用於評估生成式 AI 模型輸出的品質。自動撰寫器是一種機器學習模型,會根據人工評估所建立的資料進行訓練。理想情況下,自動評分工具會學習模仿人類評估人員。您可以使用預先建構的自動回覆器,但最佳的自動回覆器會根據您要評估的工作進行精細調整。
自動迴歸模型
模型:根據先前的預測結果推斷預測結果。舉例來說,自動迴歸語言模型會根據先前預測的符記,預測下一個符記。所有以 Transformer 為基礎的大型語言模型都是自動迴歸模型。
相較之下,以 GAN 為基礎的圖像模型通常不是自動迴歸模型,因為它們會在單一前向傳遞中產生圖像,而不是在步驟中逐漸產生圖像。不過,某些圖像產生模型是自動迴歸模型,因為它們會分步驟產生圖像。
C
思維鏈提示
提示工程技巧,可讓大型語言模型 (LLM) 逐步說明其推理方式。舉例來說,請參考下列提示,並特別留意第二句:
如果車輛在 7 秒內從 0 加速到每小時 60 英里,駕駛者會感受到多少 g 力?在答案中顯示所有相關計算。
LLM 的回應可能會:
- 顯示一連串物理公式,並在適當位置插入 0、60 和 7 的值。
- 說明為何選擇這些公式,以及各種變數的含義。
思維鏈提示會強制 LLM 執行所有計算,因此可能會產生更準確的答案。此外,思維鏈結提示可讓使用者檢查 LLM 的步驟,判斷答案是否合理。
對話
與機器學習系統 (通常是大型語言模型) 進行一來一往對話的內容。聊天中的先前互動內容 (您輸入的內容和大型語言模型的回應方式) 會成為後續聊天內容的脈絡。
聊天機器人是大型語言模型的應用程式。
依情境設定的語言嵌入
嵌入,可讓系統以類似於母語人士的方式「理解」字詞和詞組。情境化語言嵌入可理解複雜的語法、語意和情境。
舉例來說,請考慮英文單字「cow」的嵌入。較舊的嵌入資料 (例如 word2vec) 可以代表英文單字,以便在嵌入資料空間中,從母牛到公牛的距離與從母羊到公羊或從女性到男性的距離相似。在這種情況下,如果使用者輸入「cow」一詞,系統會知道這是指「牛」或「牛市」,進而進一步瞭解這項資訊。
上下文視窗
模型可在特定提示中處理的符記數量。脈絡窗口越大,模型就能使用越多資訊,為提示提供連貫一致的回覆。
D
直接提示
與「零樣本提示」同義。
蒸餾
將一個模型 (稱為教師) 縮減為較小的模型 (稱為學生) 的過程,以盡可能模擬原始模型的預測結果。精餾法十分實用,因為較小的模型相較於大型模型 (教師) 有兩項主要優點:
- 縮短推論時間
- 減少記憶體和能源用量
不過,學生的預測結果通常不如老師的預測結果準確。
精煉會訓練學生模型,根據學生模型和老師模型預測輸出的差異,盡可能減少損失函式。
比較並對照蒸餾和下列術語:
如需更多資訊,請參閱機器學習速成課程中的「LLM:微調、提煉和提示設計」一文。
E
evals
主要用於縮寫大型語言模型評估。更廣義來說,evals 是任何形式的評估的縮寫。
評估版
評估模型品質或比較不同模型的程序。
如要評估監督式機器學習模型,通常會根據驗證集和測試集來評估。評估 LLM 通常會涉及更廣泛的品質和安全評估。
F
真實性
在機器學習領域中,這個屬性可用來描述輸出內容以現實為依據的模型。事實性是一種概念,而非指標。舉例來說,假設您向大型語言模型傳送以下提示:
食鹽的化學式為何?
經過最佳化處理的模型會回覆:
NaCl
我們很容易假設所有模型都應以事實為依據。不過,某些提示 (例如以下提示) 應可讓生成式 AI 模型著重於創造力,而非事實性。
請說一首關於太空人和毛毛蟲的回文詩。
因此,產生的回文不太可能以現實為依據。
與groundedness形成對比。
少量樣本提示
提示:包含多個 (「幾個」) 示例,說明大型語言模型應如何回應。舉例來說,以下長篇提示包含兩個範例,說明大型語言模型如何回答查詢。
提示的部分 | 附註 |
---|---|
指定國家/地區的官方貨幣為何? | 要讓 LLM 回答的問題。 |
法國:歐元 | 舉例來說。 |
英國:英鎊 | 另一個例子。 |
印度: | 實際查詢。 |
與零樣本提示和單樣本提示相比,少量樣本提示通常可產生更理想的結果。不過,少量樣本提示需要較長的提示。
少量樣本提示是一種少量樣本學習,可套用至以提示為基礎的學習。
如需詳細資訊,請參閱機器學習速成課程中的「提示工程」一節。
微調
在預先訓練的模型上執行第二次專門針對工作訓練,以便針對特定用途微調參數。舉例來說,部分大型語言模型的完整訓練序列如下:
- 預先訓練:使用大量一般資料集 (例如所有英文版 Wikipedia 網頁) 訓練大型語言模型。
- 微調:訓練預先訓練模型,以執行特定任務,例如回應醫療查詢。精細調整通常會使用數百或數千個專注於特定任務的範例。
舉另一個例子來說,大型圖片模型的完整訓練序列如下:
- 預先訓練:使用大量一般圖片資料集 (例如 Wikimedia Commons 中的所有圖片) 訓練大型圖片模型。
- 微調:訓練預先訓練模型,以執行特定任務,例如產生虎鯨圖片。
微調可採用下列任意組合策略:
- 修改預先訓練模型的所有參數。這也稱為「完整微調」。
- 只修改預先訓練模型的部分現有參數 (通常是離 輸出層 最近的層),其他現有參數則保持不變 (通常是離 輸入層 最近的層)。請參閱高效參數調整。
- 新增更多圖層,通常是在最靠近輸出圖層的現有圖層上方。
微調是一種遷移學習。因此,精修可能會使用與訓練預先訓練模型時不同的損失函式或模型類型。舉例來說,您可以微調預先訓練的大型圖像模型,產生回傳輸入圖像中鳥類數量的迴歸模型。
請比較並對照精細調整與下列術語:
成功次數分數
用於評估機器學習模型產生的文字的指標。成功的比率是「成功」產生的文字輸出次數,除以產生的文字輸出總數。舉例來說,如果大型語言模型產生 10 個程式碼區塊,其中 5 個成功,則成功率為 50%。
雖然成功率在所有統計資料中都很實用,但在 ML 中,這項指標主要用於評估可驗證的作業,例如程式碼產生或數學問題。
G
Gemini
這個生態系統包含 Google 最先進的 AI 技術。這個生態系統的元素包括:
- 各種 Gemini 模型。
- Gemini 模型的互動式對話介面。使用者輸入提示,Gemini 回應這些提示。
- 各種 Gemini API。
- 各種以 Gemini 模型為基礎的業務產品,例如 Gemini 版 Google Cloud。
Gemini 模型
Google 最先進的Transformer 型多模態模型。Gemini 模型專門用於整合代理程式。
使用者可以透過多種方式與 Gemini 模型互動,包括透過互動式對話介面和 SDK。
系統生成的文字
一般來說,機器學習模型輸出的文字。評估大型語言模型時,部分指標會將產生的文字與參考文字進行比較。舉例來說,假設您想判斷機器學習模型從法文翻譯成荷蘭文的效率。在這種情況下:
- 「產生的文字」是機器學習模型輸出的荷蘭文翻譯。
- 「參考文字」是指人工翻譯 (或軟體) 所建立的荷蘭文翻譯。
請注意,部分評估策略不含參照文字。
生成式 AI
這項新興的轉型領域尚未有正式定義。不過,大多數專家都認為,生成式 AI 模型可以創建 (「生成」) 下列所有內容:
- 複雜
- 一致
- 原始圖片
舉例來說,生成式 AI 模型可以產生精緻的文章或圖像。
有些早期的技術,包括 LSTM 和 RNN,也能產生原創且連貫的內容。有些專家認為這些早期技術就是生成式 AI,但其他專家則認為,真正的生成式 AI 需要比這些早期技術更複雜的輸出內容。
請參閱預測機器學習。
金色回應
已知的正確答案。例如,請參考以下提示:
2 + 2
理想的回覆內容應為:
4
H
人工評估
由人類判斷機器學習模型輸出內容的品質,例如由雙語人士判斷機器學習翻譯模型的品質。人工評估特別適合評估沒有正確答案的模型。
請比較自動評估和AutoRater 評估。
人機迴圈 (HITL)
這是一個定義較為鬆散的慣用語,可能代表下列任一項:
- 政策規定要以批判或懷疑的態度看待生成式 AI 輸出內容。舉例來說,撰寫這份 ML 詞彙表的人員對大型語言模型的功能感到驚奇,但也留意到大型語言模型會出錯。
- 一種策略或系統,可確保使用者協助塑造、評估及改善模型的行為。讓人類參與 AI 開發過程,可讓 AI 同時運用機器智慧和人類智慧。舉例來說,如果系統是 AI 產生程式碼,再由軟體工程師審查,就是人機協作系統。
I
情境學習
與「少量樣本提示」同義。
調整指示
一種微調形式,可改善生成式 AI 模型遵循指示的能力。指令微調涉及針對一系列指令提示訓練模型,通常涵蓋各種任務。產生的經過調整指令的模型,通常會針對各種任務產生實用的零示例提示回應。
比較及對比:
L
LLM
大型語言模型的縮寫。
大型語言模型評估 (evals)
一組用於評估大型語言模型 (LLM) 成效的指標和基準。大致來說,LLM 評估有以下功能:
- 協助研究人員找出 LLM 需要改善之處。
- 可用於比較不同的 LLM,並找出特定任務的最佳 LLM。
- 確保 LLM 的使用方式安全且符合道德。
LoRA
低秩適應性的縮寫。
低秩調整 (LoRA)
參數效率高的微調技巧,可「凍結」模型的預先訓練權重 (以便不再修改),然後在模型中插入一小組可訓練的權重。這組可訓練的權重 (也稱為「更新矩陣」) 比基本模型小得多,因此訓練速度也快得多。
LoRA 具備下列優點:
- 改善模型在精細調整所用領域的預測品質。
- 比起需要微調所有模型參數的技術,這項技術可更快速地進行微調。
- 允許同時服務共用相同基礎模型的多個專門模型,藉此降低推論的運算成本。
M
機器翻譯
使用軟體 (通常是機器學習模型) 將文字從一種人類語言轉換為另一種人類語言,例如從英文轉換為日文。
k 的平均精確度 (mAP@k)
在驗證資料集中,所有平均精確度 (k) 分數的統計平均值。在 k 處計算平均精確度有一個用途,就是判斷推薦系統產生的推薦內容品質。
雖然「平均平均值」這個詞組聽起來很冗長,但指標名稱是適當的。畢竟,這項指標會找出多個 average precision at k 值的平均值。
專家組合
這項方法只使用神經網路的參數子集 (稱為專家) 來處理特定輸入 符記或示例,藉此提高效率。篩選網路會將每個輸入符記或範例導向適當的專家。
詳情請參閱下列任一論文:
MMIT
多模態指令調整的縮寫。
模型層疊
系統會為特定推論查詢挑選理想的模型。
想像一組模型,從非常大型 (大量參數) 到非常小型 (參數少得多) 都有。相較於小型模型,超大型模型在推論時會消耗更多運算資源。不過,相較於小型模型,大型模型通常可以推斷更複雜的要求。模型層疊功能會判斷推論查詢的複雜度,然後挑選適當的模型來執行推論。建立模型層級的主要動機,是為了減少推論成本,一般來說,您應該選擇較小的模型,並只在複雜查詢時選擇較大的模型。
假設小型模型在手機上執行,而較大型的模型則在遠端伺服器上執行。良好的模型層級轉移可讓較小的模型處理簡單要求,並只呼叫遠端模型處理複雜要求,進而降低成本和延遲時間。
另請參閱模型路由器。
模型路由器
這個演算法可決定在模型層疊中,推論的理想模型。模型路由器本身通常是一種機器學習模型,可逐漸學習如何為特定輸入內容挑選最佳模型。不過,模型路由器有時可能是較簡單的非機器學習演算法。
MOE
混合專家的縮寫。
MT
機器翻譯的縮寫。
否
沒有唯一正確答案 (NORA)
提示有多個適當的回覆選項。舉例來說,下列提示沒有正確答案:
講個關於大象的笑話。
評估「沒有正確答案」提示可能會很困難。
NORA
沒有正確答案的縮寫。
O
單樣本提示
提示,其中包含一個示例,說明大型語言模型應如何回應。舉例來說,以下提示包含一個範例,說明大型語言模型應如何回答查詢。
提示的部分 | 附註 |
---|---|
指定國家/地區的官方貨幣為何? | 要讓 LLM 回答的問題。 |
法國:歐元 | 舉例來說。 |
印度: | 實際查詢。 |
請比較一次性提示與下列術語:
P
高效參數微調
一組技巧,可微調大型預先訓練語言模型 (PLM),比完整微調更有效率。相較於完整微調,參數效率調整通常會微調的參數會少得多,但通常會產生與完整微調所建立的大型語言模型一樣 (或幾乎一樣) 優異的大型語言模型。
比較具參數運用效率的調整機制與下列項目:
高效參數微調也稱為高效參數微調。
PLM
預先訓練語言模型的縮寫。
訓練後模型
這項術語定義較為寬鬆,通常是指經過某些後置處理程序的預先訓練模型,例如下列一或多項:
預先訓練模型
「預先訓練的語言模型」一詞通常是指已訓練的大型語言模型。
預先訓練
在大型資料集上初步訓練模型。部分預先訓練模型是笨重的巨人,通常必須透過額外訓練才能精進。舉例來說,機器學習專家可能會在大量文字資料集 (例如 Wikipedia 中的所有英文頁面) 上預先訓練大型語言模型。預先訓練完成後,您可以使用下列任一技術進一步精進產生的模型:
提示
任何輸入至大型語言模型的文字,可讓模型以特定方式運作。提示可以是短短一句話,也可以是任意長度 (例如小說的完整內容)。提示可分為多個類別,包括下表所列:
提示類別 | 範例 | 附註 |
---|---|---|
問題 | 鴿子飛得多快? | |
操作說明 | 寫一首關於套利的有趣詩。 | 提示,要求大型語言模型執行某項操作。 |
範例 | 將 Markdown 程式碼轉換為 HTML。例如:
Markdown:* 清單項目 HTML:<ul> <li>清單項目</li> </ul> |
這個提示範例的第一句話是指示。提示的其餘部分則是範例。 |
角色 | 向物理學博士解釋為何在機器學習訓練中使用梯度下降法。 | 句子的前半部是指示,而「物理學博士」是角色部分。 |
模型可補完的部分輸入內容 | 英國首相住在 | 部分輸入提示訊息可以突然結束 (如本範例所示),也可以以底線結尾。 |
生成式 AI 模型可根據提示回應文字、程式碼、圖片、嵌入內容和影片等內容。
以提示為基礎的學習
特定模型的功能,可讓模型根據任意文字輸入內容 (提示) 調整行為。在典型的提示式學習模式中,大型語言模型會透過產生文字來回應提示。舉例來說,假設使用者輸入以下提示:
概述牛頓第三運動定律。
具備提示式學習功能的模型並未特別訓練來回答先前的提示。相反地,模型「知道」許多物理學事實、許多一般語言規則,以及許多構成一般實用答案的內容。這項知識足以提供 (希望是) 實用的答案。額外的人為回饋 (「這個答案太複雜了」或「有什麼反應?」) 可讓部分以提示為基礎的學習系統逐步改善答案的實用性。
提示設計
提示工程的同義詞。
提示工程
創造提示的技巧,可從大型語言模型取得所需回應。人類會執行提示工程。撰寫結構良好的提示,是確保大型語言模型提供實用回應的重要環節。提示工程取決於多項因素,包括:
如要進一步瞭解如何撰寫實用的提示,請參閱「提示設計簡介」。
提示設計是提示工程的同義詞。
提示調整
參數效率調整機制,可學習系統在實際提示前端加上的「前置字串」。
提示調整的一種變化版本 (有時稱為「前置字串調整」) 是在每個層級前面加上前置字串。相較之下,大部分的提示調整作業只會在輸入層中加入前置字串。
R
參考文字
專家對提示的回應。例如,請參考下列提示:
將問題「What is your name?」從英文翻譯成法文。
專家的回覆可能如下:
Comment vous appelez-vous?
各種指標 (例如 ROUGE) 可評估參考文字與 ML 模型產生的文字的相似程度。
人類回饋增強學習 (RLHF)
使用人工評分員的意見回饋,改善模型回覆的品質。舉例來說,RLHF 機制可以要求使用者使用 👍? 或 👎? 表情符號評分模型回應的品質。系統就能根據這些意見回饋調整日後的回應。
角色提示
提示的選用部分,用於識別生成式 AI 模型回應的目標對象。如果沒有角色提示,大型語言模型提供的答案可能對提問者有用,也可能沒有用。有了角色提示,大型語言模型就能以更適當且更有助於特定目標對象的方式回答問題。例如,下列提示的角色提示部分以粗體顯示:
- 將這篇文章摘要成經濟學博士論文。
- 以十歲兒童為例,說明潮汐的運作方式。
- 解釋 2008 年金融危機。說話時,就像對年幼兒童或金毛尋回犬說話一樣。
S
軟提示調整
一種針對特定工作調整大型語言模型的技術,無需耗用大量資源進行微調。軟式提示調整功能不會重新訓練模型中的所有權重,而是會自動調整提示,以達到相同目標。
在收到文字提示時,軟性提示調整功能通常會在提示中附加額外的符記嵌入,並使用反向傳播來最佳化輸入內容。
「硬式」提示包含實際的符記,而非符記嵌入。
T
溫度
超參數,用於控制模型輸出內容的隨機程度。溫度越高,輸出的內容就越隨機,溫度越低,輸出的內容就越不隨機。
選擇最佳溫度時,請考量特定應用程式和模型輸出的偏好屬性。舉例來說,如果您要建立可產生創意輸出的應用程式,可能會提高溫度。反之,如果您要建構分類圖片或文字的模型,則可能會降低溫度,以提高模型的準確度和一致性。
溫度通常會與 softmax 搭配使用。
Z
零樣本提示
提示的部分 | 附註 |
---|---|
指定國家/地區的官方貨幣為何? | 要讓 LLM 回答的問題。 |
印度: | 實際查詢。 |
大型語言模型可能會回覆下列任一內容:
- 盧比符號
- INR
- ₹
- 印度盧比
- 盧比
- 印度盧比
所有答案皆正確,但您可能會偏好特定格式。
請比較零示意提示與下列術語: