類神經網路：多元分類

稍早，您遇到 二元分類 且能從兩個可能選項中擇一使用，例如：

在本節中，我們將調查 多元分類 這些模型可以從「多種」可能性中挑選。例如：

現實世界的多課問題有數百萬人選擇分別建立不同的類別比方說，以多元分類模型為例都能輕鬆辨識任何圖片

本節將詳細說明多元分類的兩個主要變化版本：

單一或所有

「One-vs.-all」提供二元分類可用於二元分類。

假設有 N 個可能的解決方案出現分類問題，則屬於「一體制」解決方案包含 N 個獨立的二進位分類器，也就是一個二進位檔每個可能結果的分類項。在訓練期間通過一連串的二元分類器，訓練每個分類器回答分類問題

以一張水果的圖片為例可能會訓練出不同的辨識器，分別回答不同的是問題：

下圖說明實際的運作方式。

如果類別總數，這個方法相當合理但類別數量越少，效率就越低上升。

我們就能建立更有效率的全方位模型這種模型搭配深層類神經網路，其中每個輸出節點都代表類別下圖說明這個方法。

您可能已經注意到，圖 8 輸出層中的機率值加總的值不會等於 1.0 (即 100%)。(實際上加總為 1.43)。單人駕駛每個二進位結果集的可能性取決於同時獨立處理其他資料集也就是挑選機率最高的的「apple」與「not apple」相比也未考量到水果選項：「橘色」、「珍珠」或「葡萄紫」。

不過，假設我們想預測每水果我們該如何調整設計？在這個範例中，而不是預測「apple」而「apple」，我們要預測「apple」對比「橘色」對「梨」而不是「葡萄紫」這種多元分類稱為「一對一分類」。

我們可以使用相同類型的類神經元，實作一對一分類用於單一分類，一項重大變更的網路架構。我們必須將不同的轉換套用至輸出層。

針對 one-vs.-all，我們將 S 函數套用至每個輸出內容分別產生 0 到 1 個節點的輸出值，但不保證這些值加總為 1。

針對 one-vs.-one，我們可以改為套用名為 softmax 的函式，針對多重類別問題中的每個類別指派小數的機率，所有機率加總等於 1.0。這項額外限制讓訓練的收斂速度更快

softmax 方程式如下：

$$p(y = j|\textbf{x}) = \frac{e^{(\textbf{w}_j^{T}\textbf{x} + b_j)}}{\sum_{k\in K} {e^{(\textbf{w}_k^{T}\textbf{x} + b_k)}} }$$

請注意，這個公式基本上是擴充邏輯公式迴歸轉換為多個類別

下方圖片重新實作單類別、多類別分類做為一道式任務請注意，為了執行 softmax，位於輸出層 (稱為 softmax 層) 前方的也就是與輸出層相同的節點數量

請參考下列 softmax 變化版本：

Full softmax 是我們先前討論的 softmax。也就是 softmax 會計算每個可能類別的機率。
候選樣本是指 softmax 會計算機率但僅適用於隨機抽樣排除標籤。舉例來說，如果我們想找出無論輸入圖像是米格魯或血管，我們都不必會提供每個非狗用範例的機率

如果類別數量不多，Full softmax 的成本很低但會因為類別數量攀升而造成高成本候選樣本有助於改善類別數量

Softmax 假設每個範例都是單一類別的成員。但有些範例可以同時屬於多個類別。例如：

例如，上述圖 9 中的 one-vs.-one 模型假設每個輸入值都假設只能描述一種水果類型：蘋果、橘子、梨子或一顆葡萄不過，如果輸入圖片可能包含多種水果，例如而一碗蘋果與柳橙；必須運用多種物流迴歸模型