機器學習詞彙表:語言評估

這個頁面內含語言評估詞彙。如要查看所有詞彙詞彙,請按這裡

A

注意

#language

各式各樣的類神經網路架構機制,可將資料匯總為一組輸入資料。一般注意力機制可能包含一組輸入的加權總和,其中每個輸入的「權重」由其他類神經網路計算。

另請參閱自行注意多頭自行注意,這些是轉換器的建構模塊。

B

袋子

#language

用詞或段落呈現字詞的方式,不論順序為何。舉例來說,字詞包代表下列三個詞組完全相同:

  • 狗跳躍
  • 跳躍狗
  • 狗跳躍

每個字詞都會對應至稀疏向量中的索引,其中向量中的所有詞彙也都有索引。舉例來說,「狗狗跳躍」這個詞組會對應至一個特徵向量,其中的三個索引分別對應非零值 (thedogjumps)。非零值可以是下列任一值:

  • 1 表示字詞存在。
  • 某個字詞在行李中出現的次數。舉例來說,如果詞組是「馬拉鬆的狗是隻近距離互動的狗兒」,則「maroon」和「dog」都會表示為 2,而其他字詞則會表示為 1。
  • 其他值,例如字詞中字詞出現次數的對數。

BERT (雙向編碼器編碼器和 Transformer) 代表

#language

文字表示法的模型架構。訓練完成的 BERT 模型可以作為文字分類或其他機器學習工作的較大模型的一部分。

BERT 具有下列特性:

BERT' 的變化版本包括:

如需 BERT 總覽,請參閱開放式 BERT 公開:自然語言處理的先進預先訓練

Biram

#seq
#language

N 公克,其中 N=2。

雙向

#language

用來描述系統「必須」滿足「之後」文字目標部分的文字。相反地,單向系統只會評估「早於」目標文字部分的文字。

舉例來說,假設某個「遮罩語言」必須判定字詞或字詞在底線中代表底線的字狀,因此必須判定以下問題:

你_____ 是什麼?

單向語言模型必須僅根據「什麼」、「這個」和「或許」等字詞來提供其可能性。相反地,雙向語言模型也可以從「用」和「您」取得背景資訊,這有助於模型產生更好的預測。

雙向語言模型

#language

語言模型會根據前置後續文字,決定特定片段摘錄中特定權杖存在的機率。

BLEU (雙語評估評估)

#language

以 0.0 至 1.0 (含) 之間的分數,表示兩個人類語言 (例如英文和俄文) 之間的翻譯品質。BLEU 分數為 1.0,表示完美翻譯;如果 BLEU 分數為 0.0,表示翻譯失敗。

C

因果語言模型

#language

單向語言模型的同義詞。

請參閱「雙向語言模型」,以便對語言模型中的不同方向方法進行對比。

櫻花粉

#language

模稜兩可的句子或詞組。 在自然語言理解中,當機花卉出現重大問題。例如,「Red Tape Holds Up Skyscraper」標題是殘酷的頭髮,因為 NLU 模型可以用字面或圖解方式解譯廣告標題。

D

解碼器

#language

一般而言,任何從已處理、差異或內部表示法組成的機器學習系統,都會轉換為更原始、稀疏或外部表示法。

解碼器通常是大型模型的元件,通常會與編碼器配對。

「序列到序列」工作中,解碼器會以編碼器產生的內部狀態開始,預測下一個序列。

如要瞭解在 Transformer 架構中的解碼器定義,請參閱轉換器

雜訊

#language

自我監督學習的常見方法,包括:

  1. 資料集中的雜訊為人工新增。
  2. 模型會嘗試移除雜訊。

「降噪」功能可讓您從無標籤範例學習。原始資料集做為目標或標籤做為雜訊資料。

部分遮蓋語言模型使用分母,如下所示:

  1. 噪音會遮蓋部分符記,藉此增加無標籤的句子。
  2. 模型會嘗試預測原始權杖。

E

嵌入圖層

#language
#fundamentals

特殊隱藏層可訓練於高維度的類別功能,逐步學習較低維度的嵌入向量。嵌入層可讓類神經網路在訓練時更有效率,比僅使用高維度類別特徵進行訓練更大。

舉例來說,Google 地球目前支援約 73,000 種樹木。假設樹狀結構種類是模型中的「特徵」,因此模型的輸入層包含 73,000 個元素的單熱向量。例如,baobab 可能代表如下:

由 73,000 個元素組成的陣列。前 6,232 個元素的值為 0。下一個元素會保留 1 這個值。最後 66,767 個元素則會保留零值。

73,000 個元素的陣列很長。如果您未在模型中新增嵌入層,訓練作業會乘以 72,999 個零,因此耗費大量時間。這可能是因為您選擇了 12 個維度的嵌入層。因此,嵌入層會逐漸為每個樹狀物種學習新的嵌入向量。

在某些情況下,「雜湊」是嵌入層的合理替代方案。

嵌入聊天室

#language

系統會將維度較高的向量空間繪製成的 d 維向量空間。在理想情況下,嵌入空間會包含可產生有意義的數學結果的結構;舉例來說,在理想的嵌入空間中,新增和減去嵌入可以解決字詞查詢工作。

兩個嵌入項目的圓點產品是用來測量相似度。

嵌入向量

#language

一般來說,從任何隱藏層中擷取的浮點數字陣列,用於說明該隱藏層的輸入內容。嵌入向量通常是在嵌入圖層中訓練的浮點數。舉例來說,假設嵌入圖層必須學習地球上 73,000 種樹木物種的嵌入向量。下列陣列可能為 Babbab 樹狀結構的嵌入向量:

由 12 個元素組成的陣列,每個元素包含一個介於 0.0 和 1.0 之間的浮點數。

嵌入向量並非一堆隨機數字。嵌入層會透過訓練來決定這些值,類似於類神經網路在訓練期間學習其他權重的方式。陣列的每個元素都會根據樹狀物種特性的評分。哪一種元素代表哪些樹木物種'特色?人類很難判定的難題。

嵌入向量的數學部分,就是項目類似的浮點數。{0/}紅木和紅杉林是相關樹木物種,因此比紅木和椰子樹更浮動。每次重新訓練模型時,嵌入向量中的數字都會隨之變更,即使您以相同的輸入重新訓練模型。

編碼器

#language

一般而言,任何從原始、稀疏或外部表示法轉變為更處理、更密集或更內部表示法的機器學習系統。

編碼器通常是大型模型的元件,通常會經常與解碼器配對。部分 Transforms 會將編碼器與解碼器配對,但其他 Transformer 只會使用編碼器或解碼器。

部分系統則使用編碼器的輸出內容,做為分類或迴歸網路的輸入內容。

序列對序列工作中,編碼器會接收輸入序列並傳回內部狀態 (向量)。接著,解碼器會使用該內部狀態來預測下一個序列。

如要瞭解 Transformer 架構中的編碼器定義,請參閱轉換器

G

GPT (產生器的預先訓練轉換工具)

#language

OpenAI 開發的 Transformer 大型語言模型系列。

GPT 變化版本可同時套用至多種模式,包括:

  • 圖片產生 (例如 ImageGPT)
  • 產生文字轉語音 (例如 DALL-E)

L

LaMDA (對話方塊應用程式的語言模型)

#language

Google 開發的 Transform大型語言模型是以大型對話資料集為基礎訓練而成,因此可用於產生真實的對話回應。

LaMDA:我們突破性的對話技術提供概略介紹。

語言模型

#language

「模型」會預估「權杖或一長串權杖發生的情況。

大型語言模型

#language

沒有嚴格定義的非稱呼字詞,通常是指具有大量參數語言模型。部分大型語言模型包含超過 1,000 億個參數。

M

遮罩語言模型

#language

這個語言模型可預測候選符記填補序列中空白的機率。舉例來說,遮蓋語言模型可以計算候選字詞的機率,以取代下列句子中的底線:

帽子中的 ____ 回歸。

文學作品通常使用「MASK」字串,而非底線。例如:

這頂帽子的「MASK」好了。

大多數新型遮蓋語言模型皆為雙向

中繼資料學習

#language

探索或改善機器學習演算法的子集機器學習。中繼資料學習系統也可以訓練模型,透過少量資料或從先前工作中獲得的經驗,快速學習新任務。中繼資料學習演算法通常會嘗試達成下列目標:

  • 改善/學習手動設計功能 (例如初始化器或最佳化工具)。
  • 提高資料處理效率和運算效率。
  • 改善一般化。

Meta-learning 與「拒絕重新學習」相關。

模式

#language

高階資料類別。例如數字、文字、圖片、影片和音訊這五種不同模式。

模型平行處理

#language

可縮放訓練或推論的方式,將單一模型的不同部分置於不同裝置上。模型平行處理可讓模型過大,無法在單一裝置上容納。

另請參閱資料平行處理一節。

多頭自拍

#language

自身注意力」的擴充功能,可在輸入序列中的每個位置多次套用自發機制。

Transforms 引入了多個頭部的自行注意力。

多重模組模型

#language

輸入和/或輸出含有多個模型的模型。例如,假設模型會將圖片與文字說明文字 (兩種形態) 都視為特徵,並輸出分數,指出文字字幕適合圖片的圖片。因此,這個模型的輸入內容是多重模組的,而輸出內容是單向的。

自然語言理解

#language

根據使用者輸入或說出的內容判斷使用者意圖。 舉例來說,搜尋引擎會使用自然語言理解技術,根據使用者輸入或說的內容判斷使用者的搜尋內容。

N 公克

#seq
#language

已排序的 N 個字詞序列。舉例來說,真實的是 2 克。由於訂單具有關聯性,因此 m truelytruly mad 的不同 2 克。

這類 N 公克的名稱 範例
2 年 特大或 2 公克 前往、前往、吃午餐、吃晚餐
3 三元組或 3 公克 攝取太多人,3 個盲人滑鼠,鈴鐺
4 4 公克 公園內的步道、風吹塵中的男孩、扁豆

許多自然語言理解模型都仰賴 N 克來預測使用者會輸入或說出的下一個字詞。例如,假設使用者輸入了三個百葉窗。根據三邊形的 NLU 模型可能會預測使用者接下來會輸入 mice

將 N 公克與「pack of words(沒有排序的字詞組合) 對比。

自然語言理解

#language

自然語言理解的縮寫。

P

管道

#language

一種模型平行處理,這種模式會將模型分為多個階段,每個階段都會在不同的裝置上執行。當階段在處理一個批次時,先前的階段可以處理下一個批次。

另請參閱階段訓練一節。

S

自動提醒 (又稱「自行注意力層」)

#language

將一系列嵌入 (例如:權杖嵌入) 轉換為其他嵌入順序的類神經網路層。輸出序列中的每個嵌入都透過 注意 機制,將輸入序列元素中的資訊整合至其上。

自行注意的「自身」部分指的是自主學習,而非其他背景資訊。自行注意力是轉換器的主要構成要素之一,並使用字典查詢術語,例如「查詢」、「鍵」和「值」。

自行注意力層以一系列輸入表示法 (開頭為每個字詞) 開始。字詞的輸入表示法可以是簡單的嵌入方式。針對輸入序列中的每個字詞,網路會對字詞與整個字詞序列中每個元素的關聯性進行評分。關聯性分數代表字詞的結尾與其他字詞的表示比例。

以下列句子為例:

這隻動物因為太累了,所以沒有過。

下圖 (資料來源為 Transformer:語言理解能力的新型神經網路架構) 顯示自稱層#的注意模式,其中每一行的暗度代表每個字詞對表示法的貢獻:

以下句子顯示了兩次:'動物因遭受過度疲勞而未穿過街道上。'每一行會連接一個「##9;it'」這個詞,而另一個句子是五個語句 ('The', 'animal', 'street', 'it', 該句),'it' 和 'animal' 之間最為明顯。

自行留意層會醒目顯示與「it」相關的字詞。在本例子中,注意力層已學習到「最高」可能提到的字詞,為「動物」指派最高的權重。

針對 ntokens 序列,自行注意會轉換一系列 n 次嵌入,也就是在序列中的每一個位置一次。

另請參閱注意力多頭自助功能

情緒分析

#language

使用統計或機器學習演算法找出群組、產品、機構或主題的整體態度 (正面或負面)。舉例來說,使用自然語言理解時,演算法可以對大學課程的文字意見回饋執行情緒分析,以判斷學生普遍喜愛或不喜歡該課程的程度。

序列到序列工作

#language

可將 tokens 輸入序列轉換為權杖輸出序列的工作。例如,兩種常見的序列至序列工作如下:

  • 譯者:
    • 輸入序列範例:「&你愛我」。
    • 輸出序列範例:「&et t'aime."」
  • 問題回答:
    • 輸入序列範例:"我需要我需要在紐約市進行的車輛部署嗎**
    • 輸出序列範例:「&否。請將車輛放在家裡。」

稀疏特徵

#language
#fundamentals

這個功能的值主要是零或空白。舉例來說,包含單一 1 值和數百萬 0 值的特徵是稀疏的功能。相較之下,密集功能的值通常為零或空白。

在機器學習中,令人驚嘆的功能數量是一項稀疏特徵。類別特徵通常是稀疏的功能。舉例來說,樹中 300 種可能的樹種中,單一範例可能只能識別楓樹。或者,在影片庫中的數百萬部影片中,單一例子可能正好視為「Casablanca」。

在模型中,您通常會使用單一熱編碼來代表稀疏特徵。如果 One-hot 編碼較大,您可以將嵌入層放在 One-hot 編碼上方,藉此提高效率。

稀疏表示法

#language
#fundamentals

僅儲存在非稀疏元素的位置

舉例來說,假設名為 species 的類別特徵識別了特定森林中的 36 種樹木。並進一步假設每個範例都只能識別一個物種。

您可以使用單一熱向量來代表每個範例中的樹木物種。單一熱向量將包含單一 1 (代表本範例中的特定樹木) 和 35 0 (代表該示例中的 35 種樹木)。因此,maple 的一次性表示方式如下所示:

其中第 0 至 23 位置的向量保留值 0,位置 24 保留值 1,位置 25 至 35 保留值 0。

或者,稀疏表示法能夠直接識別特定物種的位置。如果 maple 在位置 24,則 maple 的稀疏表示就是:

24

請注意,稀疏表示法比單例表示法更精簡。

階段訓練

#language

按照各種階段訓練模型的策略。目標是加快訓練程序或提升模型品質。

漸進式堆疊方式的示意圖如下:

  • 階段 1 包含 3 個隱藏層,階段 2 包含 6 個隱藏層,階段 3 包含 12 個隱藏層。
  • 階段 2 開始以階段 1 的 3 個隱藏層學習的權重進行訓練。階段 3 開始於階段 2 的 6 個隱藏層中學習的權重。

三個階段,分別標示為「#39;階段 1'」、「#39;階段 2'」和「#39;階段 3'」。
          每個階段包含不同的層數:階段 1 包含 3 個層,階段 2 包含 6 個層,階段 3 包含 12 個層。階段 1 中的 3 個層會成為階段 2 的前 3 個層。同樣地,階段 2 中的 6 個層會變成階段 3 的前 6 個層。

另請參閱管道一節。

T

驗證權杖

#language

「語言模型」中,模型用於訓練及進行預測的原子單元。權杖通常是下列其中一種:

  • 字詞,例如「狗如狗」這個詞,由三個字組成的代碼,分別是「狗」、「喜歡」、「貓」和「貓」等。
  • 字元,例如「Bike fish」這個詞組包含 9 個字元。請注意,空白區域會計為其中一個權杖。
  • 子字詞,其中一個字詞可以是單一符記或多個符記。子字詞包含根字詞、前置字串或後置字串,舉例來說,使用子字詞做為符記的語言模型時,系統可能會將「狗」這個字詞視為兩個符記 (根字詞「dog」和「多」後置字串)。相同的語言模型可能會將單一「視為」這個字詞視為一個字詞,即兩個子字詞 (根字詞「高」以及字尾「er」)。

在語言模型以外的網域中,權杖可以表示其他類型的原子單位。例如,在電腦視覺中,權杖可以是圖片的子集。

Transformer

#language

Google 開發的類神經網路架構是以注意機制為基礎,將一系列輸入嵌入序列轉換為一系列輸出嵌入,而無需依賴卷積循環類神經網路。Transform 可以視為自行注意的堆疊堆疊。

轉換程式可能包含下列任一內容:

「編碼器」會將一系列嵌入行為轉換為長度相同的新序列。編碼器包含 N 個相同的層,每個層都包含兩個子圖層。這兩個子層會在輸入嵌入序列的每個位置套用,將序列的每個元素轉換為新的嵌入。第一個編碼器子層會匯總輸入序列中的資訊。第二個編碼器子層會將匯總資訊轉換為輸出嵌入。

解碼器會將一系列輸入嵌入轉換為一系列輸出嵌入 (長度可能不同)。解碼器也包含 N 個相同層的三個子層,其中兩個與編碼器子圖層類似。第三個解碼器子層會接收編碼器的輸出結果,並套用自拍照機制來收集編碼器中的資訊。

網誌文章「Transformer:語言理解的新型神經網路架構」提供了轉換器的簡介。

三元組

#seq
#language

N-gram,其中 N=3。

U

單向

#language

系統僅會評估在文字目標部分之前的文字。相反地,雙向系統會同時評估「前面」和「追蹤」文字目標部分的文字。 詳情請參閱「雙向」。

單向語言模型

#language

只根據機率在目標權杖發生前的符記來判定可能性,此為「語言模型」。與雙向語言模型形成對比。

W

嵌入字詞

#language

嵌入向量內的字詞集中每個字詞代表;也就是說,每個字詞都代表一個介於 0.0 和 1.0 之間的浮點值向量。具有含義意思的字詞比不同含義的字詞相似。舉例來說,「胡蘿蔔」、「咖哩」和「黃瓜」的含法也相似,因此與「飛機」、「太陽眼鏡」和「頭巾」的表示法非常相似。