臺灣“中央研究院”IT創(chuàng)新研究中心的研究人員開發(fā)出一款新型生成對抗網(wǎng)絡(luò),其在生成器的輸出層設(shè)計了二元神經(jīng)元,研究人員希望將此用于AI作曲。
中國臺灣的研究人員最近開發(fā)了一種新型生成對抗網(wǎng)絡(luò)(GAN),在其生成器的輸出層設(shè)計了二元神經(jīng)元。該模型已經(jīng)預(yù)先在arXiv上發(fā)表的論文中提出,可以直接在測試時生成二進(jìn)制值預(yù)測。
目前為止,GAN在連續(xù)分布建模方面取得了顯著成果。不過,要將GAN應(yīng)用于離散型數(shù)據(jù)還存在很大挑戰(zhàn),尤其是在高維離散空間中,主要是因為由模型分布向目標(biāo)數(shù)據(jù)分布的優(yōu)化上存在困難。
進(jìn)行這項研究的研究人員之一Hao-Wen Dong透露,“我目前正著手進(jìn)行音樂生成。我認(rèn)為,作曲可以被解讀為一系列的決斷,例如,關(guān)于樂器的選擇、和弦的方法、甚至是使用的確切音符。為了實現(xiàn)AI作曲家的宏偉愿景,我特別感興趣的是GAN等深層生成模型是否能夠做出決定。因此,這項工作考察了我們是否可以訓(xùn)練設(shè)計了二元神經(jīng)元的GAN,并利用標(biāo)準(zhǔn)訓(xùn)練算法與反向傳播去做出二元決策。”
Hao-Wen Dong和他的顧問Yi-Hsuan Yang共同開發(fā)一個模型,可以在測試時直接生成二進(jìn)制值預(yù)測。然后,他們使用它來生成二進(jìn)制化的MNIST數(shù)字,同時比較不同類型的二元神經(jīng)元、GAN目標(biāo)以及網(wǎng)絡(luò)架構(gòu)的性能。
樣本生成數(shù)字和預(yù)激活輸出,用于由MLP實施并使用WGAN-GP目標(biāo)進(jìn)行訓(xùn)練的建議模型。來源:Dong and Yang
“簡而言之,這種新型GAN(BinaryGAN)是一種采用二元神經(jīng)元的GAN,在其生成器的輸出層輸出一個或零的神經(jīng)元,”Dong說,“GAN有兩個主要組成部分:生成器和判別器。生成器的目的是生成假數(shù)據(jù)樣本,這些樣本能夠欺騙判別器將生成的樣本歸類為真樣本。另一方面,判別器的目標(biāo)是區(qū)分假樣本,然后利用其提供的反饋來改進(jìn)生成器。而訓(xùn)練之后,生成器可以用來生成新的數(shù)據(jù)樣本。”
研究人員能夠有效地訓(xùn)練BinaryGAN,以及它們的生成模型與二元神經(jīng)元。他們的研究結(jié)果還表明,使用梯度估計器可能是有前景的用GAN模擬離散分布的方法。
建議模型的預(yù)激活輸出的直方圖以及實值模型的概率預(yù)測。這兩個模型均由MLP實施,并通過WGAN-GP目標(biāo)進(jìn)行培訓(xùn)。
“通過使用梯度估計器,我們能夠使用反向傳播算法訓(xùn)練BinaryGAN,”Dong說,“此外,模型中采用的二值化導(dǎo)致了深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的中間表征存在著多種不同的特征。這也強調(diào)了在訓(xùn)練中包含二值化操作的重要性,因此這些二值化操作也能進(jìn)行優(yōu)化。”
Dong和Yang現(xiàn)在正尋求將采用二元神經(jīng)元的GAN應(yīng)用于條件計算圖的實現(xiàn)。在這種情況下,根據(jù)網(wǎng)絡(luò)中的二元神經(jīng)元所做的決定,某些部分將被激活或失效。
MLP實施的建議模型系統(tǒng)圖;請注意,二元神經(jīng)元僅用于生成器的輸出層
這很重要,因為它可以讓我們建立一個更復(fù)雜的、依賴于早期網(wǎng)絡(luò)層面決定的模型,”Dong說,“例如,我們可以建立一個AI作曲家,首先決定學(xué)習(xí)樂器和和弦,然后再相應(yīng)地學(xué)習(xí)作曲。”
關(guān)鍵詞: