7月11日消息,近日,以色列魏茨曼科學研究所的研究人員開發出了一項名為Double-DIP的新技術,該技術能讓系統在沒有大量訓練數據的情況下,通過深度學習來對圖像進行編輯,分離人們在圖片中想要的和不想要的部分。
該研究基于一項名為DIP(Deep Image Prior)的混合圖像恢復技術,因此研究人員將他們開發的新分離圖像方法稱為Double-DIP。
DIP技術的研究成果已于美國時間2018年7月18日提交在arxiv上,名為《圖像恢復的混合稀疏先驗學習:深度學習與稀疏編碼的結合(Learning Hybrid Sparsity Prior for Image Restoration: Where Deep Learning Meets Sparse Coding)》。
魏茨曼科學研究所的Double-DIP研究成果則被收錄在IEEE計算機視覺和模式識別會議(CVPR 2019)中。
一、從零計算的深度內部學習算法
想象一下,通過店面的窗戶拍攝一張照片給以前從未睜開眼睛的人看,并要求他指出玻璃的倒影里和商店里都有些什么。但對這個人而言,照片里的一切都是混亂的。
一般來說,計算機能夠執行圖像分離的操作,但如果要做得更出色,它們通常需要人們手動制定算法規則,或是為系統提供更多明確的演示,例如,告訴系統這是一幅圖像,以及圖像的組成部分是什么。
通常情況下,系統在機器學習中的許多任務都需要大量的訓練數據,但這些數據并不總是可利用的。
因此,魏茨曼科學研究所的研究人員們研究了一種新的機器學習算法,該系統無需大量訓練數據,僅憑一張圖片就能將人們想要的和不想要的圖片元素分離。同時,他們將這個能讓軟件從零開始計算單個圖像內部結構的深度學習算法,稱為“深度內部學習”。
二、Deep Image Prior:多層次修復混合圖像
Deep Image Prior(DIP)是一種涉及多層神經網絡的技術,該技術使用的也是深度學習算法,它主要讓系統通過訓練以恢復特定的混合圖像。
首先,研究人員向網絡隨機輸入一個數據,并輸出一個混雜的像素圖。其次,網絡將自己輸出的圖像與研究人員給定的圖像進行比較,并調整自己的內部參數,以便下次生成出更接近目標圖像的內容。
對于同一個目標圖像,系統需要將該過程重復數百次。
其中的關鍵是,DIP使用了一種反映大腦處理視覺信息方式的神經網絡,能從邊緣、角落到四肢、動物各方面來尋找圖像中具有重復特征的層次結構。
這種結構能充當一種先驗的預期。簡單理解為,如果給定的圖象有什么問題,例如存在灰塵或空白,網絡就會加強自己的預期,以覆蓋目標的缺陷,并在適當的條件下生成更真實的東西。
最終,生成圖像的斑點消失,并且空白也被填補,變成了一個更好看的圖像版本。
三、Double-DIP:雙DIP結合,輕易分離圖像
Double-DIP結合了兩個DIP。這兩個DIP都能將隨機輸入的數據轉換成一張圖像,并將兩張圖像疊加在一起。
系統將組合的圖像與目標圖像進行比較時,DIP能獨立地調整它們的參數,使它們輸出的參數相加能更接近目標圖像。
最后,每個DIP會聚焦在一組內部相似的視覺特征或補丁上,并與其他DIP的視覺特征或補丁相輔相成,生成兩個不同的圖像,但兩幅圖像能組合在一起形成目標圖像。
對此,魏茨曼科學研究所的計算機科學家、該研究論文的資深作者Michal Irani表示,她對兩個網絡能輕易將補丁分開感到很驚訝,網絡就像奧卡姆剃刀(Occam’s razor,即兩種解釋中較簡單的那個更有可能是真的)一樣學會了最簡單的解釋。
四、多種圖像分離方式
有趣的是,在Double-DIP進行圖像分離的過程中,有一些旋鈕可以精確地指導它如何分離圖像。
算法可以將畫面的前景和背景分開。例如,畫面中的草地上有一只斑馬,系統會生成一只斑馬和一片空曠的草地。在不同的設置下,算法能將人們通過玻璃拍攝的圖像,分離成反射圖像和玻璃后面的圖像。
當轉動另一個旋鈕時,算法會生成一個模糊的圖像,并將畫面中的霾和城市天際線分離。
該算法除了能利用許多圖像訓練系統之外,它還能在沒有經過訓練的情況下刪除照片水印。
莫斯科Skolkovo科學技術研究所的計算機科學家、原始DIP論文的主要作者Dmitry Ulyanov表示,他和團隊設計DIP是為了研究網絡架構的重要性,而不是創造實際應用。
但他認為,在魏茨曼科學研究所的Double-DIP研究中,該研究所提出了4到5個應用,且應用的實驗也很神奇,這是對DIP的一次非常好的擴展。
在魏茨曼科學研究所方面,Irani還認為,零次學習(Zero-shot Learning)和小樣本學習(Few-shot Learning)是人工智能的一個重要組成部分。
目前,她的團隊正在計劃將Double-DIP進一步應用到“雞尾酒派對問題(Cocktail-Party Problem)”上,通過使用Double-DIP將多個混合聲音分成兩個或多個錄音。
雞尾酒派對問題又稱雞尾酒會效應,指人的一種聽力選擇的能力。在這種情況下,人們可以將注意力集中在某個人的談話中,而忽略背景中其他的聲音。
結語:將給人們的視覺體驗帶來更多精彩和便利
魏茨曼科學研究所研發的Double-DIP算法用途非常廣泛,除了能通過訓練不斷地調整參數,以更好地實現圖像分離外,還可以在無需大量數據訓練的前提下去除圖片水印。
在未來,當這一技術真正成熟落地后,它也許能更好地應用于涉及法醫學、野生動物觀察和藝術照片增強等計算機視覺領域,給人們的視覺體驗帶來更多精彩和便利。
關鍵詞: