背景資訊:什麼是生成模型?

「生成對抗網路」指的是什麼意思? "Generative&hlt; 描述了與歧視模型形成對比的統計模型類別。

非正式:

  • 產生型模型可產生新的資料執行個體。
  • 「可歧視」模型可區分不同類型的資料執行個體。

生成模型可以產生新的動物,產生如真實的動物,而辨別模型可以辨識貓咪的狗。GAN 只是一個創造型模型的。

更正式地,根據一組資料執行個體 X 和一組標籤 Y:

  • 生成模型會擷取結合機率 p(X、Y);如果沒有標籤,則只擷取 p(X)。
  • 歧視模型會擷取條件機率 p(Y | X)。

生成模型包含資料本身的分佈,並且會顯示特定範例的可能性。例如,預測序列中下一個字詞的模型通常是生成模型 (通常比 GAN 簡單),因為模型為其指派字詞序列的可能性。

歧視模型會忽略特定執行個體是否可能存在的問題,並且只會指出標籤套用至執行個體的可能性。

請注意,這只是一般定義,生成模型有很多種,GAN 只是一個產生的模型,

模擬機率

任何類型的模型都不必傳回代表機率的數值。您可以模擬資料分佈的情況,藉此模擬資料的分佈情形。

例如,「決策」等歧視分類器可針對執行個體加上標籤,而不必指派標籤給該標籤。這類分類器仍是模型,因為所有預測標籤的分佈都會建立資料中實際標籤分佈的模型。

同樣地,生成模型也可以產生「假」資料,建立模型的模型分佈模型。

生成模型比較困難

相較於類似於歧視模型,生成模型處理的工作較為困難。生成模型必須建立更多模型

圖片的生成模型可能會擷取與「船隻」這類關聯性,例如「船」看起來可能會像「水」之類的東西,而「眼睛」不太可能顯示在前景上。這些是非常複雜的發行方式。

相反地,另一個歧視模型可以學習「帆船」或「帆船」之間的差異,只要研究一些改動的模式即可。它可能會忽略許多生成模型必須正確的相關性。

可分割模型會嘗試在資料空間內繪製界線,生成模型會嘗試模擬資料在整個空間中的放置方式。例如,下圖顯示手寫數字的歧視與生成模型:

兩份圖表,分別標示「#39;歧視模型」&兩張圖表顯示了四個資料點。每個點都會標示所代表的手寫數字圖片。在歧視圖中,以兩條虛線分隔其中兩個資料點。虛線上方的區域會標示 'y=0',而線條下方的區域會標示為 'y=1'。在生成圖中,兩點周圍繪製兩個虛線圓圈。頂端圓圈標示 'y=0'底部圓圈已加上標籤 'y=1

圖 1:手寫數字的歧視性和生成模型。

歧視模型會嘗試在資料空間中繪製一行,藉此辨識手寫 0's 和 1's 之間的差異。如果這行正確,它可以區分 0' 和 1' 的 0',而無需將執行個體完全置於線條兩側資料空間的模型。

相反地,生成模型會嘗試產生接近資料空間中實際對應項目的數字,藉此產生令人信服的 1's 和 0's。必須在整個資料空間中模擬分佈情形。

GAN 提供了一種有效的方式,可以訓練這種豐富的模型來模擬真正的分佈情形。要瞭解它們的運作方式,我們將需要瞭解 GAN 的基本結構。

瞭解您的理解程度:生成模式與歧視模型

你有 1000 人的 IQ 分數。請運用下列程序,模擬 IQ 分數的分佈情形:
  1. 擲三個六面骰子。
  2. 將卷數乘以常數 w。
  3. 重複執行 100 次,佔所有結果的平均值。
您可以嘗試不同的 w 值,直到程序結果等於實際 IQ 分數的平均值。您的模型是生成模型或歧視模型嗎?
生成模型
答對:每次擲骰子,您都能有效產生虛構人物的智慧財產。此外,生成模型會擷取 IQ 分數正常分佈 (也就是在鈴鐺曲線上) 的情形。
歧視性模型
不正確:類似的歧視模型會嘗試區分不同類型的進階評量分數。例如,辨別模型可能會嘗試將 IQ 分類為假或真實。
資訊不足,無法判斷。
這個模型確實符合我們兩種模型的其中一種定義。
模型傳回資料例項後,會傳回機率。此模型是生成模型或歧視模型嗎?
生成模型
生成模型可以預估執行個體的機率,以及類別標籤的機率。
歧視性模型
差異化模型可預估執行個體屬於類別的機率。
資訊不足,無法判斷。
生成模型和歧視模型可以估計機率 (但不一定要有)。