什麼是生成對抗網路(GAN)與合成資料

什麼是生成對抗網路(GAN)與合成資料

生成式對抗網路(GAN)是一種基於深度神經網路的生成式模型。你可能聽說過它是人工創作的肖像畫《埃德蒙-德-貝拉米》背後的演算法,這幅畫在2018年以43.25萬美元售出。除了其藝術能力,GANs是生成與真實資料集無異的人工資料集的強大工具。

GANs是如何用於建立合成資料的?

像其他生成模型一樣,GANs旨在學習訓練資料集的分佈,以生成新的(合成)資料例項。

一個GAN模型由兩個子模型組成:

  • 生成器部分從隨機輸入生成新的資料例項。
  • 鑑別器部分在真實資料和假資料(來自生成器)上進行訓練。然後,它評估輸入資料是真的還是假的。

這兩個子模型相互作用:鑑別器學習如何更好地區分生成的假資料和真資料,而生成器學習如何生成更真實的資料點。這個過程一直持續到生成器能夠創造出辨別器無法從真實資料中區分的資料例項。

GAN結構

GAN結構(Source: Mathworks

用GANs可以生成哪些型別的合成資料?

GANs在其可處理的資料型別方面是相當通用的:

  • Images: Realistic images of faces, objects, handwriting, etc. Here’s a tweet from the inventor of GANs on how their face generating capabilities improved over time:
  • 影象:人臉、物體、筆跡等的真實影象。下面是GANs的發明者發來的一條推特,介紹了他們的人臉生成能力是如何隨著時間的推移而提高的:

    4.5年的GAN在人臉生成方面的進展。
    https://t.co/kiQkuYULMC
    https://t.co/S4aBsU536b
    https://t.co/8di6K6BxVC
    https://t.co/UEFhewds2M
    https://t.co/s6hKQz9gLz
    pic.twitter.com/F9Dkcfrq8l
    — Ian Goodfellow (@goodfellow_ian) January 15, 2019

  • 視訊
  • 音訊
  • 表格式資料
  • 時間序列:合成有說服力的時間序列資料是具有挑戰性的,因為模型應該產生取決於許多其他過去資料點的資料點。

在建立合成資料方面,GANs有哪些替代方案?

GANs不是唯一基於深度學習的生成模型。其他型別的生成模型包括:

  • 變異自動編碼器: 變異自動編碼器是一種無監督的深度學習模型,它將輸入資料轉換為包含輸入資料屬性的概率分佈的編碼向量。然後,它對這些分佈進行解碼以建立新的資料。
  • 深度自迴歸模型: 深度自迴歸模型是連續資料的生成性監督模型。它們通過將過去的資料值作為模型輸入來生成新的資料點。

評論留言