機器學習詞彙表:映像檔模型

本頁麵包含「圖片模型」詞彙表字詞。如需所有詞彙表字詞,請按這裡

A

擴增實境

#image

將電腦產生的圖片疊加在使用者現實世界的視角,藉此提供複合檢視。

自動編碼器

#language
#image

學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器解碼器構成。自動編碼器仰賴下列兩個步驟:

  1. 編碼器會將輸入對應至 (通常) 有損低維 (中間) 格式。
  2. 解碼器會將較低維度格式對應至原始較高維度輸入格式,藉此建構原始輸入的有損版本。

自動編碼器接受端對端訓練,解碼器會盡可能嘗試從編碼器中繼格式重建原始輸入內容。由於中間格式比原始格式小 (較低維度),因此自動編碼器必須學習輸入的哪些資訊為重要,而且輸出結果不一定會與輸入內容完全相同。

例如:

  • 如果輸入資料是圖形,則非完全相同的副本會與原始圖片類似,但會稍有修改。非精確的文案可能會移除原始圖像中的雜訊,或填滿某些缺少的像素。
  • 如果輸入資料是文字,自動編碼器會產生新文字,以模仿 (但不會與) 原始文字完全相同。

另請參閱變化自動編碼器

自動迴歸模型

#language
#image
#生成式 AI

根據先前的預測結果推測預測結果的model。例如,自動迴歸語言模型會根據先前預測的符記預測下一個「權杖」。所有以 Transformer 為基礎的大型語言模型都是自動迴歸。

相反地,GAN 的圖片模型通常不是自動迴歸,因為這些模型是以單一向向傳送 (而非步驟) 產生圖片。不過,某些圖片產生模型「是」自動迴歸,因為模型可逐步產生圖片。

B

定界框

#image

在圖片中,矩形圍繞著特定區域的 (xy) 座標,如下圖中的犬隻。

相片:小狗坐在沙發上。綠色定界框
 左上方座標為 (275, 1271),右下方座標為 (2954, 2761),代表犬隻的身體

C

卷積

#image

在數學類遊戲中,是將兩項功能混合在一起的。在機器學習中,卷積混合使用「卷積篩選器」和輸入矩陣來訓練權重

機器學習中的「卷積」一詞通常是用來指稱卷積運算卷積層的簡單方法。

如果沒有捲積,機器學習演算法就必須學習大型張量中每個儲存格的權重。例如,對 2K x 2K 圖片進行機器學習演算法訓練時,必須找出 400 萬個獨立的權重。得益於卷積,機器學習演算法只需要找出卷積篩選器中每個儲存格的權重,即可大幅減少訓練模型所需的記憶體。套用卷積篩選器時,會直接跨儲存格複製,讓每個儲存格都與篩選器相乘。

卷積濾波器

#image

我們是卷積運算中的兩個演員之一。(另一個發動者是輸入矩陣的切片)。卷積篩選器是一種矩陣,與輸入矩陣的「排名」相同,但形狀較小。舉例來說,假設有一個 28x28 輸入矩陣,篩選器可以是小於 28x28 的任何 2D 矩陣。

在光學操控中,卷積篩選器中的所有儲存格通常會設為 1 和 0 的常數模式。在機器學習中,卷積篩選器通常會以隨機數字植入,然後是網路「訓練」是最理想的值。

卷積層

#image

深層類神經網路層,卷積篩選器會沿著輸入矩陣傳遞。舉例來說,請考慮使用下列 3x3 的「卷積篩選器」

具備下列值的 3x3 矩陣:[[0,1,0], [1,0,1], [0,1,0]]

以下動畫顯示卷積層,由 9 個卷積運算組成,涉及 5x5 輸入矩陣。請注意,每項卷積運算都會在輸入矩陣中的 3x3 切片中運作。產生的 3x3 矩陣 (右側) 由 9 個卷積運算結果組成:

顯示兩個矩陣的動畫。第一個矩陣是 5x5 矩陣:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182]、[33,28,92,195,179]、[131、28、92、195、179]。第二個矩陣是 3x3 矩陣:[[181,303,618], [115,338,605], [169,351,560]。第二個矩陣的計算方式是將卷積濾波器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 套用到 5x5 矩陣的不同 3x3 個子集。

卷積類神經網路

#image

類神經網路,其中至少一層是「卷積層」。典型的捲積類神經網路包含下列幾層的組合:

卷積類神經網路在處理影像辨識等特定問題方面取得成功。

卷積運算

#image

下列兩步驟數學運算:

  1. 卷積篩選器的元素優先乘法,以及輸入矩陣的切片。(輸入矩陣配量的排名和大小與卷積篩選器相同)。
  2. 產生的產品矩陣所有值的總和。

例如,請思考以下 5x5 輸入矩陣:

5x5 矩陣:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182]、[33,28,92,195,179]、[31,40,210

現在請想像以下 2x2 卷積濾波器:

2x2 矩陣:[[1, 0], [0, 1]]

每個卷積運算都包含輸入矩陣的單一 2x2 配量。舉例來說,假設我們在輸入矩陣左上角使用 2x2 的切片。因此,這個配量上的捲積運算如下:

將卷積濾鏡 [[1, 0], [0, 1]] 套用到輸入矩陣左上角 2x2 區段 ([[128,97], [35,22])。卷積濾波器會完整保留 128 和 22,但 97 和 35 會保持零。因此,卷積運算會產生值 150 (128+22)。

「卷積層」包含一系列卷積運算,每個運算層都會對輸入矩陣的不同配量。

D

資料增強

#image

轉換現有範例來建立更多範例,以手動方式提升訓練範例的範圍和數量。例如,提供圖片是您的其中一個功能,但資料集內的圖片範例不足,導致模型無法學習有用的關聯。在理想情況下,您應將足夠的已加上標籤圖片新增至資料集,才能讓模型正確訓練。如果不可行,資料擴增功能可能會旋轉、延展及反映每張圖片,產生許多原始圖片變化版本,可能產生足夠的加上標籤資料,以利進行卓越訓練。

深度可分離卷積類神經網路 (sepCNN)

#image

Inception 為基礎的卷積類神經網路架構,但 Inception 模組會替換為深度可分割的捲積。也稱為 Xception。

深度可分卷的捲積 (也稱為可分離的捲積) 會將標準 3D 卷積組成兩個提升運算效率的獨立卷積運算:第一是深度卷積,深度為 1 (n × × × 1),寬度,十度 (1 × × × 以)。

詳情請參閱「Xception: Deep Learning with Depthwise Separable Reolutions」(Xception:深度可相散卷法的深度學習)。

降低取樣

#image

超載字詞可能代表以下任一種情況:

  • 減少功能中的資訊量,更有效率地訓練模型。例如,在訓練圖片辨識模型之前,先將高解析度的圖片縮減為較低解析度的格式。
  • 使用比例極低的類別範例進行訓練,以改善代表比例不足類別的模型訓練。舉例來說,在類別不平衡的資料集中,模型往往會學到更多關於主要類別的資訊,但不太有關少數類別。降低取樣有助於平衡多數和少數類別的訓練量。

F

微調

#language
#image
#生成式 AI

第二項任務專屬訓練通過對預先訓練模型,修正特定用途的參數。例如,某些大型語言模型的完整訓練順序如下:

  1. 預先訓練:使用大量的「一般」資料集 (例如所有英文的 Wikipedia 頁面) 訓練大型語言模型。
  2. 微調:訓練預先訓練模型來執行「特定」工作,例如回應醫療查詢。微調通常需要數百或數千個範例來著重於特定工作。

再舉一個例子,大型圖片模型的完整訓練順序如下:

  1. 預先訓練:使用大量「一般」圖片資料集訓練大型圖片模型,例如 Wikimedia 通用圖片中的所有圖片。
  2. 微調:訓練預先訓練模型來執行「特定」工作,例如產生 Orcas 的圖片。

微調可採用下列策略的任意組合:

  • 修改預先訓練模型的現有所有參數。這種做法有時也稱為「完全微調」
  • 如果您只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的層),其他現有參數則保持不變 (通常是離輸入層的圖層)。請參閱符合參數效率的調整方法相關說明。
  • 新增更多圖層,通常位於最接近輸出層的現有層之上。

微調是一種遷移學習。 因此,微調可能使用與訓練預先訓練模型不同的損失函式或模型類型。舉例來說,您可以微調預先訓練的大型圖片模型,以產生可在輸入圖片中傳回鳥類數量的迴歸模型。

使用下列字詞比較並對照微調:

G

生成式 AI

#language
#image
#生成式 AI

新興的轉換欄位,沒有正式的定義。儘管如此,大多數專家都認為生成式 AI 模型可以建立 (「產生」) 的內容如下:

  • 複雜
  • 一致
  • 原始圖片

舉例來說,生成式 AI 模型可以生成複雜的論文或圖片

部分較舊的技術 (包括 LSTMRNN) 也可以產生原創且連貫的內容。有些專家認為這些早期技術就是 生成式 AI,有些則認為

相對於預測機器學習

I

圖片辨識

#image

用於分類圖片中物件、模式或概念的程序。圖片辨識也稱為「圖片分類」

詳情請參閱 ML Practicum:圖片分類一文。

交集 (IoU)

#image

兩個集合的交集除以聯集。在機器學習圖片偵測工作中,IoU 是用來測量模型與實際資料定界框相關的預測定界框準確度。在此情況下,兩個方塊的 IoU 是指重疊區域與總區域之間的比率,而且其值介於 0 (預測定界框與真值定界框之間) 到 1 (預測定界框與真值定界框的座標完全相同) 之間。

如下圖所示:

  • 預測的定界框 (此座標代表了模型預測繪畫中夜間表位置的座標) 會以紫色顯示。
  • 真值定界框 (用來限制畫作中夜桌的實際位置的座標) 會以綠色外框描繪。

梵谷正在為阿里斯的文森臥室繪畫,床邊的夜桌周圍有兩個不同的定界框。真值定界框 (綠色) 完全環繞著夜晚桌子。預測出的定界框 (紫色) 會向下偏移 50%,位於真值定界框的右側;包住夜間資料表的右下方四分之一,但遺漏了表格的其餘部分。

在本例中,用於預測和真值的定界框交集 (左下方) 為 1,預測的定界框聯集 (右下方) 為 7,因此 IoU 為 \(\frac{1}{7}\)。

與上述圖片相同,但每個定界框分成四個象限。總共有七個象限,因為真值定界框的右下方象限,以及預測定界框的左上方象限彼此重疊。這個重疊部分 (以綠色醒目顯示) 代表交集,且面積為 1。 與上述圖片相同,但每個定界框分成四個象限。這裡總共有七個象限,因為真值定界框的右下方象限,以及預測定界框的左上方象限彼此重疊。內部定界框 (以綠色醒目顯示) 包住的整個內部,代表聯集,面積為 7。

K

關鍵點

#image

圖片中特定地圖項目的座標。舉例來說,對於區分花朵品種的圖片辨識模型,關鍵點可能是每個寵物、莖、葉子等的中心。

L

地標

#image

鍵點的同義詞。

M

MNIST

#image

由 LeCun、Cortes 和 Burge 編譯的公開網域資料集,內含 60,000 張圖片,每張圖片都顯示人類如何從 0 到 9 手動撰寫特定數字。每張圖片都會儲存為 28x28 的整數陣列,其中每個整數都是 0 到 255 (含) 之間的灰階值。

MNIST 是機器學習的標準資料集,通常用於測試新的機器學習技術。詳情請參閱 MNIST 手寫數字資料庫

P

彙整

#image

將先前卷積層建立的矩陣 (或矩陣) 縮減為較小的矩陣。 集區通常牽涉到整個集區區域的最大值或平均值。舉例來說,假設有以下 3x3 矩陣:

3x3 矩陣 [[5,3,1], [8,2,5], [9,4,3]]。

集區運算就像卷積運算一樣,會將矩陣分割為配量,然後依據「跨步」滑動卷積運算。舉例來說,假設池化運算以 1x1 的步伐將卷積矩陣分割為 2x2 的配量。如下圖所示,執行四種集區作業。 假設每個集區運算都會選取該片段中的四個最大值:

輸入矩陣為 3x3,且值為:[[5,3,1], [8,2,5], [9,4,3]。輸入矩陣左上角 2x2 的子矩陣為 [[5,3], [8,2]],因此左上方的集區運算會產生值 8 (上限為 5、3、8 和 2)。輸入矩陣的右上方 2x2 子矩陣為 [[3,1], [2,5]],因此右上方的集區運算會產生值 5。輸入矩陣左下角 2x2 的子矩陣為 [[8,2], [9,4]],因此左下角的池運算運算會產生值 9。輸入矩陣右下角的 2x2 子矩陣為 [[2,5], [4,3]],因此右下角的集區運算會產生值 5。總而言之,池化運算會產生 2x2 矩陣 [[8,5], [9,5]]。

集區可協助您在輸入矩陣中強制執行「平移變異數」

視覺應用程式集區稱為「空間集區」。時間序列應用程式通常將集區稱為「臨時集區」。在其他情況下,集區通常稱為「向下取樣」或「降低取樣」

預先訓練模型

#language
#image
#生成式 AI

已經訓練的模型或模型元件 (例如嵌入向量)。有時候,您會將預先訓練的嵌入向量饋送至「類神經網路」中。有時,您的模型會自行訓練嵌入向量,而不是依賴預先訓練的嵌入。

「預先訓練模型」一詞是指在通過預先訓練大型語言模型

預先訓練

#language
#image
#生成式 AI

在大型資料集中訓練模型的初始訓練。有些預先訓練模型是無害的巨人,通常得透過額外訓練加以修正。舉例來說,機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。在預先訓練之後,產生的模型可以透過下列任一技巧進一步微調:

R

旋轉不變

#image

處理圖片分類問題時,演算法仍能成功分類圖片,即使圖片方向改變也一樣。舉例來說,演算法仍可識別網球拍 (朝上、側面或向下的方向)。請注意,不一定適合旋轉變異數;例如,顛倒的 9 不應歸類為 9。

另請參閱「平移變異數」「大小變異數」

尺寸不變

#image

發生圖片分類問題時,演算法仍能成功分類圖片,即使圖片大小改變也一樣。舉例來說,演算法仍可識別取用 200 萬像素或 20 萬像素的貓。請注意,即使是最好的圖片分類演算法,在大小差異方面仍設有嚴格的限制。比方說,演算法 (或人類) 可能無法將僅使用 20 像素的貓咪圖片正確分類。

另請參閱「平移變異數」「旋轉變異數」

空間集區

#image

請參閱「集區

跨距

#image

在卷積運算或集區中,下一個一系列輸入配量中每個維度的差異。例如,以下動畫示範在卷積運算期間的步伐 (1,1)。因此,下一個輸入片段會從上一個輸入片段的右側開始一個位置。當作業到達右側邊緣時,下一個片段會一直往左方,但下一個位置。

輸入 5x5 矩陣與 3x3 卷積濾波器。由於步狀為 (1,1),因此系統會套用卷積濾波器 9 次。第一個卷積配量會評估輸入矩陣左上角 3x3 的子矩陣,第二個配量會評估中間的 3x3 子矩陣。第三個卷積配量會評估右上角 3x3 子矩陣。第四個切片會評估中間的 3x3 子矩陣。第五個配量會評估中間的 3x3 子矩陣。第六個切片會評估中間的 3x3 子矩陣。第七切片會評估左下方 3x3 的子矩陣。第八個切片會評估底部中間 3x3 的子矩陣。第 9 個切片會評估右下角的 3x3 子矩陣。

上例示範了二維步。如果輸入矩陣是 3D,依序也是 3D。

向下取樣

#image

請參閱「集區

T

溫度

#language
#image
#生成式 AI

控制模型輸出隨機程度的超參數。隨機性參數越高,隨機輸出的內容越多,而低溫則會產生較少的隨機輸出內容。

視特定應用程式及模型輸出偏好的屬性而定,選擇最佳溫度的做法會有不同。舉例來說,假設您在建立可產生廣告素材輸出內容的應用程式時,可能會提高溫度。相反地,在建構可將圖片或文字分類的模型時,為了提高模型的準確率和一致性,您可能會降低溫度。

溫度通常會與 softmax 搭配使用。

翻譯不變

#image

發生圖片分類問題時,即使圖片中的物件位置有所變更,演算法仍能成功分類圖片。舉例來說,演算法仍然可以辨識狗,無論狗狗位於影格的中心或影格的左側都一樣。

另請參閱「大小變異數」「旋轉變異數」