本頁麵包含「圖片模型」詞彙表字詞。如需所有詞彙表字詞,請按這裡。
A
擴增實境
將電腦產生的圖片疊加在使用者現實世界的視角,藉此提供複合檢視。
自動編碼器
學習從輸入中擷取最重要的資訊的系統。自動編碼器是由編碼器和解碼器構成。自動編碼器仰賴下列兩個步驟:
- 編碼器會將輸入對應至 (通常) 有損低維 (中間) 格式。
- 解碼器會將較低維度格式對應至原始較高維度輸入格式,藉此建構原始輸入的有損版本。
自動編碼器接受端對端訓練,解碼器會盡可能嘗試從編碼器中繼格式重建原始輸入內容。由於中間格式比原始格式小 (較低維度),因此自動編碼器必須學習輸入的哪些資訊為重要,而且輸出結果不一定會與輸入內容完全相同。
例如:
- 如果輸入資料是圖形,則非完全相同的副本會與原始圖片類似,但會稍有修改。非精確的文案可能會移除原始圖像中的雜訊,或填滿某些缺少的像素。
- 如果輸入資料是文字,自動編碼器會產生新文字,以模仿 (但不會與) 原始文字完全相同。
另請參閱變化自動編碼器。
自動迴歸模型
根據先前的預測結果推測預測結果的model。例如,自動迴歸語言模型會根據先前預測的符記預測下一個「權杖」。所有以 Transformer 為基礎的大型語言模型都是自動迴歸。
相反地,GAN 的圖片模型通常不是自動迴歸,因為這些模型是以單一向向傳送 (而非步驟) 產生圖片。不過,某些圖片產生模型「是」自動迴歸,因為模型可逐步產生圖片。
B
定界框
在圖片中,矩形圍繞著特定區域的 (x、y) 座標,如下圖中的犬隻。
C
卷積
在數學類遊戲中,是將兩項功能混合在一起的。在機器學習中,卷積混合使用「卷積篩選器」和輸入矩陣來訓練權重。
機器學習中的「卷積」一詞通常是用來指稱卷積運算或卷積層的簡單方法。
如果沒有捲積,機器學習演算法就必須學習大型張量中每個儲存格的權重。例如,對 2K x 2K 圖片進行機器學習演算法訓練時,必須找出 400 萬個獨立的權重。得益於卷積,機器學習演算法只需要找出卷積篩選器中每個儲存格的權重,即可大幅減少訓練模型所需的記憶體。套用卷積篩選器時,會直接跨儲存格複製,讓每個儲存格都與篩選器相乘。
卷積濾波器
我們是卷積運算中的兩個演員之一。(另一個發動者是輸入矩陣的切片)。卷積篩選器是一種矩陣,與輸入矩陣的「排名」相同,但形狀較小。舉例來說,假設有一個 28x28 輸入矩陣,篩選器可以是小於 28x28 的任何 2D 矩陣。
在光學操控中,卷積篩選器中的所有儲存格通常會設為 1 和 0 的常數模式。在機器學習中,卷積篩選器通常會以隨機數字植入,然後是網路「訓練」是最理想的值。
卷積層
深層類神經網路層,卷積篩選器會沿著輸入矩陣傳遞。舉例來說,請考慮使用下列 3x3 的「卷積篩選器」:
以下動畫顯示卷積層,由 9 個卷積運算組成,涉及 5x5 輸入矩陣。請注意,每項卷積運算都會在輸入矩陣中的 3x3 切片中運作。產生的 3x3 矩陣 (右側) 由 9 個卷積運算結果組成:
卷積類神經網路
類神經網路,其中至少一層是「卷積層」。典型的捲積類神經網路包含下列幾層的組合:
卷積類神經網路在處理影像辨識等特定問題方面取得成功。
卷積運算
下列兩步驟數學運算:
- 卷積篩選器的元素優先乘法,以及輸入矩陣的切片。(輸入矩陣配量的排名和大小與卷積篩選器相同)。
- 產生的產品矩陣所有值的總和。
例如,請思考以下 5x5 輸入矩陣:
現在請想像以下 2x2 卷積濾波器:
每個卷積運算都包含輸入矩陣的單一 2x2 配量。舉例來說,假設我們在輸入矩陣左上角使用 2x2 的切片。因此,這個配量上的捲積運算如下:
「卷積層」包含一系列卷積運算,每個運算層都會對輸入矩陣的不同配量。
D
資料增強
轉換現有範例來建立更多範例,以手動方式提升訓練範例的範圍和數量。例如,提供圖片是您的其中一個功能,但資料集內的圖片範例不足,導致模型無法學習有用的關聯。在理想情況下,您應將足夠的已加上標籤圖片新增至資料集,才能讓模型正確訓練。如果不可行,資料擴增功能可能會旋轉、延展及反映每張圖片,產生許多原始圖片變化版本,可能產生足夠的加上標籤資料,以利進行卓越訓練。
深度可分離卷積類神經網路 (sepCNN)
以 Inception 為基礎的卷積類神經網路架構,但 Inception 模組會替換為深度可分割的捲積。也稱為 Xception。
深度可分卷的捲積 (也稱為可分離的捲積) 會將標準 3D 卷積組成兩個提升運算效率的獨立卷積運算:第一是深度卷積,深度為 1 (n × × × 1),寬度,十度 (1 × × × 以)。
詳情請參閱「Xception: Deep Learning with Depthwise Separable Reolutions」(Xception:深度可相散卷法的深度學習)。
降低取樣
超載字詞可能代表以下任一種情況:
- 減少功能中的資訊量,更有效率地訓練模型。例如,在訓練圖片辨識模型之前,先將高解析度的圖片縮減為較低解析度的格式。
- 使用比例極低的類別範例進行訓練,以改善代表比例不足類別的模型訓練。舉例來說,在類別不平衡的資料集中,模型往往會學到更多關於主要類別的資訊,但不太有關少數類別。降低取樣有助於平衡多數和少數類別的訓練量。
F
微調
第二項任務專屬訓練通過對預先訓練模型,修正特定用途的參數。例如,某些大型語言模型的完整訓練順序如下:
- 預先訓練:使用大量的「一般」資料集 (例如所有英文的 Wikipedia 頁面) 訓練大型語言模型。
- 微調:訓練預先訓練模型來執行「特定」工作,例如回應醫療查詢。微調通常需要數百或數千個範例來著重於特定工作。
再舉一個例子,大型圖片模型的完整訓練順序如下:
- 預先訓練:使用大量「一般」圖片資料集訓練大型圖片模型,例如 Wikimedia 通用圖片中的所有圖片。
- 微調:訓練預先訓練模型來執行「特定」工作,例如產生 Orcas 的圖片。
微調可採用下列策略的任意組合:
- 修改預先訓練模型的現有所有參數。這種做法有時也稱為「完全微調」。
- 如果您只修改「部分」預先訓練模型的現有參數 (通常是最靠近輸出層的層),其他現有參數則保持不變 (通常是離輸入層的圖層)。請參閱符合參數效率的調整方法相關說明。
- 新增更多圖層,通常位於最接近輸出層的現有層之上。
微調是一種遷移學習。 因此,微調可能使用與訓練預先訓練模型不同的損失函式或模型類型。舉例來說,您可以微調預先訓練的大型圖片模型,以產生可在輸入圖片中傳回鳥類數量的迴歸模型。
使用下列字詞比較並對照微調:
G
生成式 AI
新興的轉換欄位,沒有正式的定義。儘管如此,大多數專家都認為生成式 AI 模型可以建立 (「產生」) 的內容如下:
- 複雜
- 一致
- 原始圖片
舉例來說,生成式 AI 模型可以生成複雜的論文或圖片
部分較舊的技術 (包括 LSTM 和 RNN) 也可以產生原創且連貫的內容。有些專家認為這些早期技術就是 生成式 AI,有些則認為
相對於預測機器學習。
I
圖片辨識
用於分類圖片中物件、模式或概念的程序。圖片辨識也稱為「圖片分類」。
詳情請參閱 ML Practicum:圖片分類一文。
交集 (IoU)
兩個集合的交集除以聯集。在機器學習圖片偵測工作中,IoU 是用來測量模型與實際資料定界框相關的預測定界框準確度。在此情況下,兩個方塊的 IoU 是指重疊區域與總區域之間的比率,而且其值介於 0 (預測定界框與真值定界框之間) 到 1 (預測定界框與真值定界框的座標完全相同) 之間。
如下圖所示:
- 預測的定界框 (此座標代表了模型預測繪畫中夜間表位置的座標) 會以紫色顯示。
- 真值定界框 (用來限制畫作中夜桌的實際位置的座標) 會以綠色外框描繪。
在本例中,用於預測和真值的定界框交集 (左下方) 為 1,預測的定界框聯集 (右下方) 為 7,因此 IoU 為 \(\frac{1}{7}\)。
K
關鍵點
圖片中特定地圖項目的座標。舉例來說,對於區分花朵品種的圖片辨識模型,關鍵點可能是每個寵物、莖、葉子等的中心。
L
地標
鍵點的同義詞。
M
MNIST
由 LeCun、Cortes 和 Burge 編譯的公開網域資料集,內含 60,000 張圖片,每張圖片都顯示人類如何從 0 到 9 手動撰寫特定數字。每張圖片都會儲存為 28x28 的整數陣列,其中每個整數都是 0 到 255 (含) 之間的灰階值。
MNIST 是機器學習的標準資料集,通常用於測試新的機器學習技術。詳情請參閱 MNIST 手寫數字資料庫。
P
彙整
將先前卷積層建立的矩陣 (或矩陣) 縮減為較小的矩陣。 集區通常牽涉到整個集區區域的最大值或平均值。舉例來說,假設有以下 3x3 矩陣:
集區運算就像卷積運算一樣,會將矩陣分割為配量,然後依據「跨步」滑動卷積運算。舉例來說,假設池化運算以 1x1 的步伐將卷積矩陣分割為 2x2 的配量。如下圖所示,執行四種集區作業。 假設每個集區運算都會選取該片段中的四個最大值:
集區可協助您在輸入矩陣中強制執行「平移變異數」。
視覺應用程式集區稱為「空間集區」。時間序列應用程式通常將集區稱為「臨時集區」。在其他情況下,集區通常稱為「向下取樣」或「降低取樣」。
預先訓練模型
已經訓練的模型或模型元件 (例如嵌入向量)。有時候,您會將預先訓練的嵌入向量饋送至「類神經網路」中。有時,您的模型會自行訓練嵌入向量,而不是依賴預先訓練的嵌入。
預先訓練
在大型資料集中訓練模型的初始訓練。有些預先訓練模型是無害的巨人,通常得透過額外訓練加以修正。舉例來說,機器學習專家可能會對大型文字資料集 (例如維基百科中的所有英文頁面) 預先訓練大型語言模型。在預先訓練之後,產生的模型可以透過下列任一技巧進一步微調:
R
旋轉不變
處理圖片分類問題時,演算法仍能成功分類圖片,即使圖片方向改變也一樣。舉例來說,演算法仍可識別網球拍 (朝上、側面或向下的方向)。請注意,不一定適合旋轉變異數;例如,顛倒的 9 不應歸類為 9。
六
尺寸不變
發生圖片分類問題時,演算法仍能成功分類圖片,即使圖片大小改變也一樣。舉例來說,演算法仍可識別取用 200 萬像素或 20 萬像素的貓。請注意,即使是最好的圖片分類演算法,在大小差異方面仍設有嚴格的限制。比方說,演算法 (或人類) 可能無法將僅使用 20 像素的貓咪圖片正確分類。
空間集區
請參閱「集區」。
跨距
在卷積運算或集區中,下一個一系列輸入配量中每個維度的差異。例如,以下動畫示範在卷積運算期間的步伐 (1,1)。因此,下一個輸入片段會從上一個輸入片段的右側開始一個位置。當作業到達右側邊緣時,下一個片段會一直往左方,但下一個位置。
上例示範了二維步。如果輸入矩陣是 3D,依序也是 3D。
向下取樣
請參閱「集區」。
T
溫度
控制模型輸出隨機程度的超參數。隨機性參數越高,隨機輸出的內容越多,而低溫則會產生較少的隨機輸出內容。
視特定應用程式及模型輸出偏好的屬性而定,選擇最佳溫度的做法會有不同。舉例來說,假設您在建立可產生廣告素材輸出內容的應用程式時,可能會提高溫度。相反地,在建構可將圖片或文字分類的模型時,為了提高模型的準確率和一致性,您可能會降低溫度。
溫度通常會與 softmax 搭配使用。
翻譯不變
發生圖片分類問題時,即使圖片中的物件位置有所變更,演算法仍能成功分類圖片。舉例來說,演算法仍然可以辨識狗,無論狗狗位於影格的中心或影格的左側都一樣。