本頁提供 Image 模型詞彙表。如要查看所有詞彙詞彙,請按這裡。
A
擴增實境
這種技術會疊加電腦產生的圖像,在使用者真實世界的螢幕上疊加畫面,因此提供複合式的檢視畫面。
B
定界框
在圖片中,矩形的 (x、y) 座標圍繞著所需區域 (例如下圖中的狗)。
C
卷積
在數學上,談話性思考要結合兩種功能。在機器學習中,卷積會混合卷積篩選器和輸入矩陣,以便訓練權重。
在機器學習中,「卷積」通常是指參照運算運算或卷積層的簡單方法。
若是沒有捲積,機器學習演算法就必須學習大型張量中每個儲存格的個別權重。舉例來說,透過 2K x 2K 圖片進行機器學習演算法訓練時,系統會強制尋找 4M 的獨立權重。就演算法而言,機器學習演算法只需要找到卷積篩選器中所有儲存格的權重,即可大幅降低訓練模型所需的記憶體。套用卷積篩選器時,可以直接複製儲存格,將每個儲存格乘以該篩選器。
卷積篩選器
卷積作業中的兩個演員之一。(另一個演員是輸入矩陣的配量)。卷積篩選器是指與輸入矩陣具有相同排名,但形狀較小的矩陣。例如,對於 28x28 輸入矩陣,篩選器可能為小於 28x28 的任何 2D 矩陣。
在相片操控中,卷積篩選器中的所有儲存格通常都會設為一或零的常數模式。在機器學習中,卷積篩選器通常會以隨機號碼傳播,接著網路會「訓練」理想的值。
卷積層
一層深層類神經網路其中卷積篩選器通過 aa 矩陣。舉例來說,請考慮採用以下 3x3 卷積篩選器:
以下動畫展示了由 9 個包含 5x5 輸入矩陣的捲積運算組成的捲積層。請注意,每項卷積作業都可以在輸入矩陣的不同 3x3 配量上執行。右側產生的 3x3 矩陣 (由 9 個計算作業的結果組成):
卷積類神經網路
一組類神經網路,其中至少一個層為卷積層。一般卷積類神經網路由下列層的組合組成:
卷積類神經網路在特定問題 (例如圖片辨識) 方面獲得成功。
卷積運算
下列兩個步驟的數學運算:
- 卷積篩選器和元素的輸入矩陣部分之元素元素相乘。(輸入矩陣的配量含有與卷積篩選器相同的排名和大小)。
- 產生的產品矩陣中所有值的總和。
以下方的 5x5 輸入矩陣為例:
現在,假設下列 2x2 卷積篩選器:
每項卷積作業都涉及輸入矩陣的單一 2x2 配量。舉例來說,我們會使用輸入矩陣左上方的 2x2 配量。因此,這個部分的捲積運算如下所示:
卷積層由一系列卷積運算組成,這些運算分別在輸入矩陣的不同片段上運作。
D
資料擴充
轉換現有的範例,藉此建立其他範例,藉此強化訓練範例的範圍和數量。例如,假設圖片是其中一項功能,但您的資料集並未包含足夠的圖片範例,讓模型無法學習實用的關聯。在理想情況下,您必須在資料集中新增足夠的已加上標籤圖片,讓模型能正確進行訓練。如果這些方法都不可行,資料擴充就能旋轉、延展和反映每張圖片,產生許多原始相片的變化版本,因此可能會產生足夠的標籤資料來啟用卓越的訓練。
深度可分隔卷積類神經網路 (sepCNN)
卷積類神經網路架構以Inning為基礎,但會將 Inception 模組替換為深度可分離的捲積。又稱為 Xception。
深度可分離卷積 (亦稱為可分隔卷積) 會將標準 3-D 卷積計算為兩個在計算上更為有效的捲積運算:首先是深度卷積,深度 1 (n × n ✕ 1),然後是最小卷積「1」。
詳情請參閱「Xce: Deep Learning with Depthwise Se Composions」。
降低取樣
表示下列任一項目的超載字詞:
- 減少功能中的資訊量,以便更有效率地訓練模型。例如,在訓練圖片辨識模型之前,將高解析度圖片降低為低解析度格式。
- 針對比例過低的類別範例,提供比例偏低的訓練,藉此改善弱勢類別的模型訓練成效。例如,在類別不平衡資料集中,模型通常會學習成熟度類別,但對次要類別不足。降低取樣有助於平衡多數和少數類別的訓練量。
I
圖片辨識
將圖片中的物件、模式或概念分類的程序。圖片辨識功能也稱為「圖片分類」。
詳情請參閱 ML Practicum:圖片分類。
聯集 (IoU) 十字路口
兩組交集除以聯集。在機器學習圖片偵測工作中,IoU 的用途是評估模型預測的定界框相對於真值定界框的準確度。在這種情況下,兩個方塊的 IoU 是重疊區域和總區域之間的比率,值的範圍從 0 (預測定界框和真值定界框不重疊) 到 1 (預測定界框和真值定界框完全相同)。
例如,在下圖中:
- 預測定界框 (用來限制模型中繪畫夜晚位置的座標) 以紫色概述。
- 真值定界框 (用於繪製中夜間資料表的座標) 會以綠色顯示。
這裡的預測和真值定界框 (左下方) 的交集為 1,而預測和真值的定界框 (右下方) 為 7,因此 IoU 為 \(\frac{1}{7}\)。


K
重點
圖片中特定地圖項目的座標。舉例來說,以圖片辨識模型來區分花卉物種後,關鍵點可能是每個花瓣的中心點、幹細胞、延遲。
L
地標
同義詞 keypoint。
M
MNIST
由 LeCun、Cortes 和 Burges 編譯的公共領域資料集包含 60,000 張圖片,每張圖片都顯示了人工從 0 到 9 之間的特定數字。每張圖片都會儲存為 28x28 的整數陣列,每個整數都是介於 0 到 255 (含) 之間的灰階值。
MNIST 是機器學習的標準資料集,通常用於測試新的機器學習做法。詳情請參閱 手寫數字的 MNIST 資料庫。
P
集區
將較早卷積層建立的矩陣 (或矩陣) 縮減為較小的矩陣。集區處理通常涉及在集區區域之間取得最大或平均值。舉例來說,假設有下列 3x3 矩陣:
集區運算就像卷積運算,會將矩陣分成不同片段,然後以原則來計算卷積運算。舉例來說,假設集區運算會將卷積矩陣以 1x1 的步伐分成 2x2 的配量。如下圖所示,系統會執行四個集區運算。假設每個集區運算都會挑選該區塊中四個的最大值:
集區可協助在輸入矩陣中強制執行平移變異數。
視覺應用程式集區的建立方式正式稱為空間集區。時間序列應用程式通常被稱為「臨時集區」。較少的集區通常稱為「子取樣」或「降低取樣」。
R
旋轉不變性
在圖片分類問題中,即使圖片方向改變,演算法仍可成功將圖片分類。例如,演算法仍可識別網球場、方向或下車的球拍。請注意,旋轉變數不一定是您想要的。例如,上下顛倒 9 不應歸類為 9。
S
大小不變量
在圖片分類問題中,即使圖片大小發生變更,演算法仍可成功分類圖片。舉例來說,演算法仍可識別一隻貓是否耗用 200 萬像素或 20 萬個像素。請注意,即使是最佳的圖片分類演算法,大小不變性都有實際限制。舉例來說,演算法 (或人類) 可能無法正確將只耗用 20 像素的貓咪圖片分類。
空間集區
請參閱「集區」一文。
Stride
在卷積或集區運算中,下一個輸入輸入配量的各維度差異。舉例來說,以下動畫展示在卷積運算期間的 (1,1) 步步。因此,下一個輸入片段會在上一個輸入滑桿的右側開始一個位置。當作業達到右側邊緣時,下一個滑桿會一直往左移,但向下移動一個位置。
上述範例說明瞭二維步伐。如果輸入矩陣是 3D 特徵,位移也會是 3D 維度。
子取樣
請參閱「集區」一文。
T
翻譯不變性
在圖片分類問題中,即使圖片內的物件位置發生變更,演算法仍可成功將圖片分類。 舉例來說,演算法仍可辨識內容,例如位於畫面中央或畫面左側。