機器學習詞彙表:語言評估

本頁麵包含語言評估詞彙詞彙。如需所有詞彙詞彙,請按這裡

A

注意力

#language

在「類神經網路使用的機制,用來表示特定字詞或字詞中重要性。屬性會壓縮模型需要預測下一個權杖/字詞的資訊量。一般注意機制可能包含一組輸入的加權總和,其中每種輸入的權重是由類神經網路的其他部分計算。

另請參閱自我攻擊多頭自我攻擊,這是 Transformer 的建構模塊。

自動編碼器

#language
#image

系統會學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器解碼器所組成。自動編碼器必須採用下列兩個步驟:

  1. 編碼器會將輸入對應至 (通常) 失真的低維度 (中繼) 格式。
  2. 解碼器會將低維度格式對應至原始的高維度輸入格式,藉此建構原始輸入的失真版本。

自動解碼器會盡可能從編碼器的中間格式重新建構原始輸入,藉此端對端訓練。由於中繼格式比原始格式更小 (維度較低),因此自動編碼器會學習輸入資訊的必要資訊,且輸出內容也不會與輸入不完全相同。

例如:

  • 如果輸入資料是圖形,則非完全相同的複本會與原始圖形相似,但會稍微修改。例如,非完全複製的副本可能會從原始圖像中移除乾擾,或填補部分缺少的像素。
  • 如果輸入資料是文字,自動編碼器會產生新文字,但會模仿原始文字 (但並非完全相同)。

另請參閱變化版本自動編碼器

自動迴歸模型

#language
#image
#generativeAI

模型會根據其先前的預測推斷預測。舉例來說,自動迴歸語言模型會根據先前預測的權杖,預測下一個權杖。所有以 Transformer 為基礎的大型語言模型都適用自動迴歸功能。

相反地,GAN 型圖片模型通常不會自動迴歸,因為這些圖片只會使用單向傳遞,而不會在步驟中反覆進行。不過,某些圖片產生模型「會」自動迴歸,因為這些模型會在步驟中產生圖片。

B

片袋

#language

代表詞組或段落中的字詞 (無論順序為何)。比方說,一串字詞就代表下列三個詞組:

  • 狗跳躍
  • 跳狗
  • 狗躍躍的

每個字詞都會對應至「剖析向量的索引,其中向量會為每個詞彙中的每個字詞建立索引。舉例來說,「狗跳躍」詞組會對應至包含向量的三個向量,分別對應 thedogjump 字詞的三個索引值。非零值可以是下列任一值:

  • 1 表示字詞的存在。
  • 袋子內字詞出現的次數。舉例來說,如果詞組是「maroon dog and a maroon fur」(小馬毛皮的狗),則「maroon」(馬拉松) 和「dog」(狗) 就會顯示為 2,而另一個字詞則代表 1。
  • 有些其他值,例如某字詞在袋中出現的次數,以及對數次的對數。

BERT (前衛編碼器編碼說明)

#language

文字表示法的模型架構。經過訓練的 BERT 模型可以做為大型文字分類及其他機器學習工作的一部分。

BERT 的特性如下:

BERT 的變化版本包括:

如需 BERT 的總覽,請參閱適用於開放原始碼的 BERT:適用於自然語言處理的先進訓練

Bigram

#seq
#language

N 克,其中 N=2。

雙向

#language

用來說明系統「同時」和「追蹤」文字目標文字的系統。相反地,單向系統只會評估位在目標文字區段之前的文字。

例如,假設遮蓋語言模型必須判斷下列問題中字詞或字詞的出現機率:

您什麼 ________?

單向語言模型只能根據「What」、「is」和「the」這根據內容提供的基礎。相反地,雙向語言模型也可能會透過「with」和「you」取得結構定義,這可能有助於模型產生更準確的預測結果。

雙向語言模型

#language

語言模型會根據「之前」和「追蹤」文字,判斷文字片段是否屬於指定位置,並判斷該位置是否位於特定位置的機率。

BLEU (雙語評估研究)

#language

分數介於 0.0 和 1.0 之間 (含首尾),代表兩種人類語言 (例如英文和俄文之間) 的翻譯品質。BLEU 分數為 1.0 代表完美翻譯,BLEU 分數為 0.0 表示可翻譯。

C

原因

#language

單向語言模型的同義詞。

請參閱雙向語言模型,瞭解如何在語言模擬中比較不同的方向方法。

鏈結提示

#language
#generativeAI

提示工程」技巧,鼓勵大型語言模型 (LLM) 逐步解釋其原因。以下列提示為例,請特別留意第二個句子:

一輛駕駛人在 7 秒時,每小時可以行駛 0 到 60 英里 (1 英里)?在答案中顯示所有相關的計算。

LLM 的回應可能會:

  • 依序顯示物理物理公式,並在適當的位置插入 0、60 和 7 的值。
  • 請說明選擇這些公式的原因及各種變數的意義。

鏈結提示並強制要求 LLM 執行所有計算,因此可能會產生更準確的答案。此外,鏈結提示提示可讓使用者查看 LLM 的步驟,判斷答案是否合理。

剖析剖析

#language

將句子分成較小的文法結構 (「組成」)。 機器學習系統的後續部分 (例如自然語言理解模型) 可以比原始句子更輕鬆地剖析組成元素。以下列句子為例:

我的朋友採用了兩隻貓。

組成剖析器可將這個句子分成下列兩個組成項目:

  • 我的朋友是名詞片語。
  • 領養雙貓是動詞片語。

這些子構成項目可進一步細分為更小的子系。 例如動詞片語

領養兩隻貓

可細分為:

  • adopted 為動詞。
  • 雙貓是名詞片語。

當機櫻花

#language

句子或詞組的意思不夠明確。 當機緩衝區在自然語言理解中會帶來重大問題。舉例來說,廣告標題「Red Tape Holds Up Skyscraper」會很明顯,因為 NLU 模型能夠正確或有效地解讀廣告標題。

D

解碼器

#language

一般來說,從已處理、密集或內部表示法轉換為較原始、稀疏或外部表示法的任何機器學習系統。

解碼器通常是大型模型的元件,這類元件通常會與編碼器配對。

「序列工作」工作中,解碼器會先從編碼器產生的內部狀態開始預測下一個序列。

如要瞭解轉換工具架構中的解碼器定義,請參閱轉換器

降噪

#language

監督式學習的常見做法,這類情況包括:

  1. 雜訊是以人為方式新增至資料集。
  2. 模型會嘗試移除雜訊。

降噪功能可讓您透過未加上標籤的示例學習。 原始資料集可做為目標或標籤,以及雜訊資料做為輸入項目。

部分遮蓋語言模型使用雜訊的方式如下:

  1. 雜訊是藉由遮蓋部分權杖,在無標籤的句子中手動加入。
  2. 模型會嘗試預測原始權杖。

直接提示

#language
#generativeAI

零爆炸提示的同義詞。

E

編輯距離

#language

用於測量兩個不同文字字串相距的測量結果。在機器學習中,編輯距離是輕鬆且容易計算的,而且有效比較兩個已知相似字串,或尋找與特定字串類似的字串。

編輯距離有幾種定義,每個都使用不同的字串運算。舉例來說, Levenshtein 距離會考量最少的刪除、插入和替代作業。

例如,「heart」和「darts」這兩個字詞的 Levenshtein 距離是 3,因為下列 3 個編輯項目是將另一個字詞變成另一個字詞的最少變更:

  1. 愛心 → deart (將「h」替換為「d」)
  2. deart → dart (刪除「e」)
  3. dart → darts (插入「s」)

嵌入層

#language
#fundamentals

特殊的隱藏層,用於訓練高維度的類別功能,以漸進的方式學習較低的維度嵌入向量。嵌入層可讓類神經網路的訓練效率遠超過高維度類別功能的訓練。

舉例來說,Google 地球目前支援大約 73,000 棵樹。假設樹狀圖是模型中的特徵,因此模型的輸入層包含單次 1 個向量的 73,000 個元素。例如,baobab 可能如下所示:

由 73,000 個元素組成的陣列。前 6,232 個元素的值為 0。下一個元素的值是 1。最後一個 66,767 元素會保留 0 值。

73,000 個元素陣列太長。如果未在模型中新增嵌入層,由於將乘以 72,999 個零的結果,因此訓練會耗用大量時間。也許您選擇了嵌入層,由 12 個維度組成。因此,嵌入層會逐漸學習每個樹狀結構的新嵌入向量。

在某些情況下,「雜湊」是嵌入層的合理替代方案。

內嵌空間

#language

對應 高維度向量空間的 D 維向量空間。在理想情況下,嵌入空間會產生一個可以產生有意義的數學結果的結構;例如,在理想的嵌入空間中,使用加減的嵌入方式可以解出類比方面的任務。

兩個嵌入項目的點產品是表示兩者的相似度。

嵌入向量

#language

普遍來說,從任何 隱藏層取得的浮點數陣列會描述該隱藏層的輸入內容。嵌入向量是嵌入在嵌入層中訓練的浮點數陣列。例如,假設嵌入層必須學習地球 73,000 棵每個樹種的嵌入向量。下列陣列可能是嬰兒樹的嵌入向量:

陣列包含 12 個元素,每個元素都含有介於 0.0 至 1.0 之間的浮點數。

嵌入向量並不是一連串的隨機數字。嵌入層透過訓練來決定這些值,類似於類神經網路在訓練期間學習其他權重的方式。陣列的每個元素都代表一個樹種特性的評分。哪個元素代表樹種的特性?人類難以判斷

嵌入向量的可顯著差異是類似項目的類似浮點數類似。舉例來說,類似的樹種生態系統的浮點數與不相近的樹木種類類似。紅木與紅衫是相關的樹種類,因此這些樹葉的數量會比紅木和椰子樹來得類似。即使您使用相同的輸入重新訓練模型,嵌入向量向量中的數字也會有所改變。

編碼器

#language

一般來說,只要從原始、稀疏或外部表示法轉換為其他已處理、否認或內部的內部機器學習系統,就大功告成。

編碼器通常是一種大型模型的元件,其中通常會與解碼器配對。部分轉換器會將編碼器與解碼器配對,但其他轉換器僅使用編碼器或只有解碼器。

有些系統使用編碼器的輸出內容做為分類或迴歸網路的輸入內容。

序列工作中,編碼器會接受輸入序列,並傳回內部狀態 (向量)。接著,解碼器會使用該內部狀態預測下一個序列。

如要瞭解轉換工具架構中的編碼器定義,請參閱轉換器一文。

F

幾個提示

#language
#generativeAI

含有多個 (「很少」) 範例的 提示,其中展示大型語言模型的回應方式。例如,下列冗長提示包含兩個範例,說明如何顯示大型語言模型的查詢方式。

一次提示 Notes
指定國家/地區的官方幣別為何? 您希望 LLM 回答的問題。
法國:歐元 例如:
英國:英鎊 另舉一例
印度: 實際查詢。

相較於零度提示一次性提示,少數拍攝提示產生的結果通常較不理想。然而,進行提示的操作需要較長的提示。

多接式提示是一種兩種做法,適用於依提示進行學習

小提琴

#language

以 Python 優先的「設定程式庫,可設定函式和類別的值,且沒有任何侵入程式碼或基礎架構。如果是 Pax (和其他機器學習程式碼集),這些函式和類別代表模型訓練 超參數

Fiddle 假設機器學習的程式碼集通常可分成以下幾類:

  • 可定義圖層和最佳化工具的程式庫程式碼。
  • 資料集「glue」程式碼,用於呼叫程式庫並串連所有內容。

Fiddle 會以未評估且可變動的形式擷取 glue 程式碼的呼叫結構。

微調

#language
#image
#generativeAI

第二項工作專屬訓練票證是在預先訓練模型中調整,針對特定用途調整參數。例如,部分大型語言模型的完整訓練序列如下:

  1. 預先訓練:在龐大的一般資料集上訓練大型語言模型,例如所有英語維基百科網頁。
  2. 微調:訓練預先訓練模型來執行「特定」工作,例如回應醫療查詢。微調通常涉及數百個與特定工作有關的數千個範例。

另一個大型模型模型的完整訓練序列如下:

  1. 預先訓練:在龐大的一般圖片資料集上訓練大型圖片模型,例如 Wikimedia 通用的所有圖片。
  2. 微調:訓練預先訓練模型以執行「特定」工作,例如產生果 ca 圖片。

微調可讓任何策略組合如下:

  • 修改所有預先訓練模型的現有參數。有時也稱為「完全微調」
  • 只修改預先訓練模型的其中「部分」(通常是最接近輸出層的圖層),同時保持其他現有參數不變 (通常是資料層最接近輸入層)。
  • 新增更多圖層,通常位於最接近輸出層的現有層上方。

微調是遷移學習的一種形式。 因此,微調功能可能會使用不同的損失函式或模型類型,而非訓練模型所用的預先訓練模型。舉例來說,您可以微調預先訓練的大型圖片模型來產生迴歸模型,以便傳回輸入圖片中的鳥類數量。

比較及對比下列字詞微調:

亞麻色

#language

高效能開放原始碼 程式庫,以 JAX 為基礎為基礎打造深度學習。Flax 提供用於訓練 類神經網路的函式,以及評估效能的方法。

亞麻籽

#language

Flax 為建構的開放原始碼 Transformer 程式庫,主要用於自然語言處理和多重模組研究。

G

創造型 AI

#language
#image
#generativeAI

沒有正式定義的新興轉型欄位。不過,大多數的專家認為,自動產生的 AI 模型可建立 (產生) 內容,如下所示:

  • 複雜
  • 耦合
  • 原始圖片

例如,創造型 AI 模型可建立複雜的論文或圖片。

某些較舊的技術 (包括 LSTMRNN) 也可以產生原始和一致內容。有些專家認為這些早期技術是一般的 AI 技術,而其他的團隊則認為真正的 AI 產生更複雜的輸出,比這些舊技術產生的能力更廣。

預測機器學習相反。

GPT (新一代預先訓練轉換器)

#language

OpenAI 開發的Transformer大型語言模型系列。

GPT 變化版本可套用至多個版本,包括:

  • 圖片產生 (例如 ImageGPT)
  • 產生文字圖片 (例如 DALL-E)。

H

引導

#language

「可產生」的 AI 模型,該模型的宗旨是實際產生可取代但內容不實的運算。例如,假設有一個假設的 AI 模型聲稱 Barack Obama 在 1865 過世時就「認真」

I

情境相關學習

#language
#generativeAI

表示「不接問題」的同義詞。

L

LaMDA (Dialogue 應用程式的語言模型)

#language

Transformer大型語言模型為基礎,由 Google 針對大型對話資料集所訓練,可產生逼真的對話回應。

我們的 LaMDA:我們的創新對話技術提供總覽。

語言模型

#language

模型可評估權杖或多組權杖在較長的權杖序列中的可能性。

大型語言模型

#language

不含嚴格定義的非正式字詞,通常是指具有大量參數語言模型。部分大型語言模型包含超過 1,000 億個參數。

M

遮罩語言模型

#language

語言模型可預測候選符記填入序列中的機率。例如,遮蓋的語言模型可以計算候選字詞的可能性,以取代下列句子中的底線:

帽子內的 ____ 回來了。

文書通常會使用「MASK」字串,而非底線。例如:

帽子中的「MASK」回歸!

大多數現代化遮蓋語言模型都是雙向

Meta Learning

#language

一部分機器學習系統,用於發掘或改善學習演算法。中繼學習系統也能透過訓練模型,快速從少量的資料中學習新的工作,或從先前工作中獲得的體驗。中繼學習演算法通常會嘗試達成以下目標:

  • 改善/學習人工功能 (例如初始化器或最佳化工具)。
  • 提高資料效率與運算效率。
  • 改善一般化。

Meta-Learning 與短暫學習相關。

模數

#language

高階資料類別。例如,數字、文字、圖片、影片和音訊是五種不同的形式。

模型平行處理

#language

擴大訓練或推論的方式,將不同模型的不同部分放置在不同的裝置上。模型平行處理會導致模型過大,無法適用於單一裝置。

如要實作模型平行運作,系統通常會執行以下作業:

  1. 將模型分割 (拆分) 為較小的部分。
  2. 將這些較小型的訓練分散至多個處理器。每個處理器都會訓練其模型的部分。
  3. 合併結果,建立單一模型。

模型平行處理速度緩慢。

另請參閱資料平行處理一文。

多頭痛

#language

自主攻擊」的擴充功能,可為輸入序列中的每個位置多次套用自我認證機制。

Transformer 導入了多個頭部自我攻擊功能。

多重模組

#language

輸入和/或輸出的模型包含多個模組。舉例來說,假設有一個模型使用圖片和文字說明文字 (兩種模式) 做為特色,並輸出分數來說明圖片文字說明文字的正確性。因此,這個模型的輸入內容是多模組,且輸出內容為單部分。

N

自然語言理解

#language

根據使用者輸入或說出的內容,決定使用者的意圖。例如,搜尋引擎會根據使用者輸入或說出的內容,判斷使用者會使用哪種語言理解要輸入的內容。

N 公克

#seq
#language

依 N 字的順序排序。例如,truly madly 就是 2 公克。由於訂單相關,因此絕對不同與 「完全真實」的 2 公克不同。

N 這種 N 語法的名稱 範例
2 Bigram 或 2 克 外帶、前往、吃午餐、吃晚餐
3 圖表或 3 公克 太厲害,三個盲人機會,鈴鐺
4 4 公克 在公園散步,在風吹的沙塵中,男孩用扁帶

許多自然語言理解模型會使用 N 語法來預測使用者輸入或說出的下一個字詞。舉例來說,假設使用者輸入了三支盲。以三元圖為基礎的 NLU 模型可能會預測使用者接下來會輸入 mice 類型。

詞句對比過 N 位數,也就是未訂購的字詞組合。

自然語言理解

#language

自然語言理解的縮寫。

O

一次性提示

#language
#generativeAI

一個提示,其中一個示範了大型語言模型的回應方式。舉例來說,以下提示包含一個顯示大型語言模型的範例,該模型應如何回答查詢。

一次提示 Notes
指定國家/地區的官方幣別為何? 您希望 LLM 回答的問題。
法國:歐元 例如:
印度: 實際查詢。

使用下列快速鍵比較及對比:

P

參數效率調整

#language
#generativeAI

用來微調大型預先訓練語言模型 (PLM) 的效率,會比完全微調更有效率。一般而言,參數調整的微調幅度遠優於完全微調的「參數」,但通常會產生大型語言模型」的成效良好 (或幾乎一樣),而且是由完整微調功能建構的大型語言模型。

比較及對比參數使用參數調整功能:

參數效率調整功能也稱為「符合成本效益的微調」。

管道

#language

一種模型平行處理,即模型處理分成多個階段,每個階段都會在不同的裝置上執行。當階段在處理一個批次時,前一階段可以處理下一個批次。

另請參閱階段訓練

波蘭茲羅提

#language
#generativeAI

預先訓練的語言模型的縮寫。

位置編碼

#language

這項技術可將權杖「位置」的相關資訊新增至權杖的內嵌中。轉換器模型使用定位編碼,以便進一步瞭解序列不同部分之間的關係。

位置編碼的常見實作方式是使用竇性函式。(具體而言,竇函式的運作頻率和振幅取決於權杖在序列中的位置)。這項技術可讓 Transformer 模型根據位置,以依序存取序列的不同部分。

預先訓練模型

#language
#image
#generativeAI

已訓練的模型或模型元件 (例如嵌入向量)。有時候,您會將預先訓練的嵌入向量傳送至類神經網路,有時候,模型會訓練嵌入向量,而非依賴預先訓練的嵌入。

「預先訓練的語言模型」是指透過「預先訓練」完成的「大型語言模型

預先訓練

#language
#image
#generativeAI

對大型資料集進行初始訓練的訓練。某些預先訓練模型是混亂的巨人,且通常須透過其他訓練來修正。舉例來說,機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文網頁) 預先訓練大型語言模型。在預先訓練後,產生的模型可能會透過下列任一技術進一步修正:

提示

#language
#generativeAI

大型語言模型輸入的輸入內容,可讓模型依照特定方式行為執行。提示可以是簡短的詞組或任意長度 (例如小說的全文)。提示會分為多個類別,包括下表中的類別:

提示類別 範例 Notes
問題 圓頂的飛行速度如何?
教學 寫下活潑逗趣的詩詞。 提示使用者輸入大型語言模型「執行」的動作。
範例 將 Markdown 程式碼翻譯為 HTML。例如:
Markdown: * 清單項目
HTML:<ul> <li>清單項目</li> </ul>
本提示中的第一個句子是一個指示。提示的其餘部分就是範例。
角色 闡明瞭機器學習技術在 Physics 中的機器學習訓練採用漸層梯度的原因。 句子的第 1 部分是說明,「 to PhD in Physics」(人類的博士學位) 是角色部分。
模型輸入的部分輸入內容 英國首相總理 部分輸入提示可以立即結束 (如本例所示),也可以以底線結尾。

通用 AI」模型可回應文字、程式碼、圖片、嵌入影片等任何內容。

依提示學習

#language
#generativeAI

某些模型的功能,可以根據任意文字輸入調整自身行為 (提示)。在一般提示式學習模式中,大型語言模型會透過產生文字來回應提示。舉例來說,假設使用者輸入了下列提示:

概略說明牛頓的第三運動。

採用以提示為基礎的學習模型並沒有特別訓練,因此無法接受上一個提示。因此,模型會「瞭解」有關物理學的事實、一般一般語言規則,以及構成一般實用答案的許多因素。該知識足以提供實用 (希望) 的解答。其他真人意見回饋 (「這個答案過於複雜」或「什麼是反應?」) 可讓某些提示式學習系統,漸進改善答案的實用性。

提示設計

#language
#generativeAI

用於提示工程的同義詞。

提示工程

#language
#generativeAI

建立提示,從大型語言模型提取所需回應。人類會執行提示工程。撰寫結構化的提示是確保大型語言模型提供有用回應的重要一環。提示工程受到許多因素影響,包括:

  • 用來預先訓練,並可能會微調大型語言模型的資料集。
  • 溫度,也就是模型用來產生回應的其他解碼參數。

如要進一步瞭解如何編寫實用的提示,請參閱「提示設計簡介」。

提示設計是提示工程的同義詞,

提示微調

#language
#generativeAI

參數有效調整機制,瞭解系統對實際提示的「前置字元」。

提示調整的其中一個變化版本 (有時稱為「前置字串調整」) 是在「每個層」的前置字元前面加上前置字串。相較之下,大多數提示微調設定只會將前置字串新增至輸入層

(右)

角色提示

#language
#generativeAI

提示的選擇性部分,可用來識別「通用 AI」模型的回應。如果沒有角色提示,大型語言模型會提供可能沒有幫助的答案。具有角色提示時,大型語言模型會以特定目標對象更適切的方式回答問題。例如,下列提示的角色角色部分會以粗體顯示:

  • 概略說明經濟學博士
  • 描述十年來的運作方式
  • 說明 2008 年的金融危機。如同幼童或黃金獵犬的拍攝方式。

自我攻擊 (也稱為自傷層)

#language

類神經網路層,會將一系列嵌入 (例如權杖嵌入) 轉換成其他一系列的嵌入內容。輸出序列中的每個嵌入都透過攻擊機制整合輸入序列元素中的資訊。

自我攻擊的「本身」部分指的是項目本身,而非其他情境。自我防震是 Transformer 的主要構成要素之一,並使用字典查詢術語,例如「查詢」、「鍵」和「值」。

自我加已經層以一系列輸入項目表示 (每個字詞各一個)。字詞的輸入表示法可以是簡單的嵌入。針對輸入序列中每個字詞,網路會將整個字詞中整個字詞這個分數之間的關聯進行評分。關聯性分數會決定該字詞的最終表示程度,與其他字詞的表示法相等。

以下列句子為例:

動物過度疲倦,導致動物無法穿越街道上。

下圖 (變壓器:語言的新小說網路架構 瞭解) 以代名詞 it 表示<ph class="ph-1-3">

以下句子出現兩次:「動物不會因為過度勞累,而無法穿越街道上。」每一行以一個句子連結至「it」這個句子 (「The」、「animal」、「street」、「it」和「英文句號」)。「it」和「animal」之間的線最強。

強化自我層會醒目顯示與「it」相關的字詞。在這個案例中,注意力層醒目顯示了該字詞「可能」可能參照的字詞,並將最高的權重指派給「動物」

針對「n」tokens 的序列,自我攻擊會將一系列嵌入 n 分次執行,每個序列一次。

另請參閱攻擊多頭式攻擊

情緒分析

#language

使用統計或機器學習演算法判別群組的整體表現 (正向或負面),以服務、產品、機構或主題為主。舉例來說,使用自然語言理解,演算法可以針對大學課程的文字意見回饋進行情緒分析,藉此判定學生一般對課程喜歡或不喜歡的程度。

序列工作

#language

將輸入 tokens 的輸入順序轉換為權杖的輸出序列。例如,兩種常見的序列序列工作為:

  • 譯者:
    • 輸入序列範例:「我愛你」。
    • 輸出序列範例:「Je t'aime」。
  • 回答問題:
    • 輸入序列範例:「我需要在紐約市買車嗎?」
    • 輸出序列範例:「不。請將車子留在家中。」

稀疏功能

#language
#fundamentals

feature值,前面為零或空白。 舉例來說,含有一個 1 值和 0 百萬個值的特徵會遭到剖析。反之,密集功能中的值主要並非零或空白。

在機器學習中,出乎意料的特色是功能稀疏的功能。類別特徵通常是稀疏功能。舉例來說,在森林中,有 300 種的樹狀樹種,一個範例可能只識別了「楓樹」。或者,也可能在同一部影片庫中的數百萬部影片,只看到「Casablanca」。

在模型中,您通常會使用 one-hot 編碼來表示稀疏功能。如果一幅編碼的特性太大,則可將 嵌入層嵌入 hot-hot 編碼,藉此提高效率。

稀疏表示法

#language
#fundamentals

僅在稀疏功能中儲存非零元素的位置

例如,假設名為 species 的類別特徵會識別特定森林中的 36 個樹木物種。此外,假設每個範例都只識別出一個種類。

您可以使用單人向量來代表各個範例中的樹木種類。單一 向量 包含單一 1 (代表該範例中的特定樹木物種) 和 35 0 (表示此範例「不是」 35 棵樹)。因此,maple 的單向表示法可能會如下所示:

值為 0 到 23 的向量值,值為 0,位置 24 值為值 1,位置 25 到 35 則值為 0。

或者,稀疏表示法只會識別特定物種的位置。如果 maple 位於位置 24,則 maple 的稀疏表示法如下:

24

請注意,稀疏表示法比單次熱表示法更密集。

階段訓練

#language

依照不同連續階段訓練模型的技巧。目標是加快訓練程序,或達到更出色的模型品質。

下方為漸進式堆疊方法的插圖:

  • 階段 1 含有 3 個隱藏的圖層,第 2 階段包含 6 個隱藏的圖層,第 3 階段則包含 12 個隱藏的圖層。
  • 階段 2 開始在階段 1 的 3 個隱藏層中學習權重。第 3 階段是從階段 2 的隱藏層中學到的權重開始訓練。

三個階段分別標示為「階段 1」、「階段 2」和「階段 3」。
          每個階段都包含不同層:第 1 階段包含 3 層,第 2 階段包含 6 層,而第 3 階段包含 12 個層。第 1 階段的 3 個圖層會變成第 2 階段的前 3 個圖層。同樣地,階段 2 的 6 個圖層會成為第 3 階段的前 6 個圖層。

另請參閱管道

T5

#language

文字轉換遷移學習 模型,由 Google AI 於 2020 年推出。T5 是一種以「Transformer」(轉換器) 架構為基礎的「編碼器」解碼器模型 (根據非常大型的資料集訓練而成)。能有效應用於各種自然語言處理工作,例如產生文字、翻譯語言,以及透過對話的方式回答問題。

T5 從「Text-to-Text 轉換轉換工具」的 5 個 T 中取其名稱。

T5 倍

#language

開放原始碼機器學習架構,專為建構和訓練大規模的自然語言處理 (NLP) 模型而設計。T5 是以 T5X 程式碼集為基礎建構 (以 JAXFlax 為基礎)。

溫度

#language
#image
#generativeAI

超參數可控制模型輸出的隨機程度。溫度較高可以產生隨機輸出的結果,而溫度較低時,隨機產生輸出內容較少。

選擇最佳溫度取決於特定應用程式,以及模型輸出的所需屬性。例如,在產生產生廣告素材輸出的應用程式時,就可能會調高溫度。相反地,在建構模型來分類圖片或文字的模型時,您可能需要降低溫度,藉此改善模型的準確度和一致性。

溫度通常用於 softmax

文字 Span

#language

與文字字串特定子區段相關聯的陣列索引時距。例如,Python 字串 s="Be good now" 中的 good 字詞會佔用 3 到 6 的文字範圍。

token

#language

「語言模型」中,用來訓練模型以及進行預測的原子單元。權杖通常是下列其中一種:

  • 例如,「狗的詞組」詞組包含三個字詞權杖:「狗」、「喜歡」和「貓」。
  • 字元:舉例來說,「bike 魚」這個詞組包含九個字元符記。(請注意,空格會計為一個符記)。
  • 子字詞:單一字詞可以是單一權杖或多個權杖。子字詞包含根字詞、前置字元或後置字串。舉例來說,使用子字詞做為權杖的語言模型可能會將「狗」一詞視為兩個符記 (根字詞「狗」和複數字「s」)。同一個語言模型可能會將「taller」這個單字視為兩個子字詞 (根字「tall」為根字,並以「er」為後綴)。

在語言模型外的網域中,權杖可以代表其他類型的原子單元。舉例來說,在電腦視覺中,權杖可能是圖片的子集。

Transformer

#language

由 Google 開發的類神經網路架構是以自主式機制為基礎,可將輸入嵌入的序列轉換成序列嵌入項目,而不需仰賴卷積循環類神經網路。轉換工具可做為堆疊自我堆疊的堆疊。

轉換工具可包含以下項目:

「編碼器」會將一系列的內嵌項目轉換為相同長度的新序列。編碼器包含 N 層,每個資料層包含兩個子圖層。這兩個子圖層會在輸入嵌入序列的每個位置套用,將序列的每個元素轉換為新的嵌入。第一個編碼器子層會匯總輸入序列中的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入。

「解碼器」會將輸入嵌入的序列轉換成一連串的輸出嵌入,且長度可能不同。解碼器也可納入具有三個子層的 N 層,其中一個子與編碼器的子層類似。第三個解碼器子層會採用編碼器的輸出內容,並套用自主攻擊機制來收集資訊。

網誌文章

三角形

#seq
#language

N-gram 表示 N=3。

U

單向

#language

僅評估文字前方「區段」文字的系統。相反地,雙向系統在評估文字追蹤文字區段時。詳情請參閱雙向

單向語言模型

#language

這個語言模型只會針對「之前」(而非「之後」) 顯示的權杖雙向語言模型相反。

V

變化版本自動編碼器 (VAE)

#language

這種自動編碼器,利用輸入內容和輸出內容之間的差異來產生修改的輸入版本。變化版本自動編碼器很適合用於通用 AI

VAE 是以變化版本推論為基礎:預估機率模型參數的技巧。

字詞嵌入

#language

表示在「嵌入向量中的每個字詞組合中,每個字詞都代表一個浮點值 (以 0.0 到 1.0 之間的浮點值)。採用類似字詞的的字詞會比含不同含義的字詞更加相似。舉例來說,carrotscelerycucumbers 應採用相對類似的表示方式,這和飛機太陽眼鏡牙膏的表示法差不多。

Z

零幹擾提示

#language
#generativeAI

「不會」提供適當的大型語言模型回應範例。例如:

一次提示 Notes
指定國家/地區的官方幣別為何? 您希望 LLM 回答的問題。
印度: 實際查詢。

大型語言模型可能會以下列任一方式回應:

  • 盧比符號
  • INR
  • 印度盧比
  • 中斷
  • 印度盧比

以上皆為正確答案。不過,您可能偏好採用特定格式。

比較及比較零開始提示及下列字詞: