機器之心報道
編輯:陳萍、維度
視頻畫面的穩(wěn)定與否,很大程度上影響著觀感的舒適度!如何補償視頻抖動,拯救手抖黨,來自臺灣大學、谷歌等研究機構的學者,提出了防抖新算法,視頻拍攝——穩(wěn)。
你拿著手機拍視頻時,最大的困擾是什么?
抖……
視頻抖動似乎成為亟需解決的一大問題。
近日的一項研究可以很好地解決視頻抖動問題。它的效果是這樣的:
從畫面看,右邊的視頻抖動明顯減少,即使是疾走拍攝,看起來也不那么晃眼。
人潮洶涌的公共場所拍攝視頻進行對比,右邊的動圖明顯穩(wěn)定了很多。
引言
隨著 YouTube、Vimeo 和 Instagram 等網(wǎng)絡平臺上視頻內容的快速增長,視頻的穩(wěn)定變得越來越重要。沒有專業(yè)視頻穩(wěn)定器捕獲的手機視頻通常不穩(wěn)定且觀看效果不佳, 這對視頻穩(wěn)定算法提出了重大挑戰(zhàn)?,F(xiàn)有的視頻穩(wěn)定方法要么需要主動裁剪幀邊界,要么會在穩(wěn)定的幀上產生失真?zhèn)蜗瘛?/p>
所以,如何解決視頻抖動,產生穩(wěn)定的視頻拍攝效果呢?來自臺灣大學、谷歌、弗吉尼亞理工大學和加州大學默塞德分校等研究機構的研究者提出了一種無需裁剪的全幀視頻穩(wěn)定算法。
論文地址:https://arxiv.org/pdf/2102.06205.pdf
項目地址:https://github.com/alex04072000/NeRViS
具體而言,該研究提出了一種通過估計稠密的扭曲場來實現(xiàn)全幀視頻穩(wěn)定的算法,既可以融合來自相鄰幀的扭曲內容,也能合成全幀穩(wěn)定的幀。這種算法的核心技術為基于學習的混合空間融合,它可以減輕因光流不精確和快速移動物體造成的偽影影響。研究者在 NUS 和 selfie 視頻數(shù)據(jù)集上驗證了該方法的有效性。此外,大量的實驗結果表明,該研究提出的方法優(yōu)于以往的視頻穩(wěn)定方法。
本研究的主要貢獻如下:
將神經渲染技術應用于視頻穩(wěn)定中,以緩解對流不準確的敏感性問題;
提出了一種混合融合機制,用于在特征和圖像級別上組合來自多幀的信息,并通過消融研究系統(tǒng)地驗證了各種設計選擇;
在兩個公共數(shù)據(jù)集上展示了與代表性視頻穩(wěn)定技術相比較而言,該研究所提出的方法具有良好性能。
算法實現(xiàn)
本研究提出的視頻穩(wěn)定方法一般分為三個階段:1)運動估計;2)運動平滑;3) 幀扭曲以及渲染。該研究重點集中在第三階段,即渲染高質量的幀而不需要任何裁剪。算法不依賴于特定的運動估計 / 平滑技術。
研究假設從真實相機空間到虛擬相機空間的扭曲場可用于每一幀視頻。對于給定的輸入視頻,首先對每幀的圖像特征進行編碼,在特定的目標時間戳處將相鄰幀扭曲到虛擬攝像機空間,然后融合這些特征來渲染一個穩(wěn)定的幀。
圖 3:融合多個幀的設計選擇。
為了合成全幀穩(wěn)定的視頻,需要對輸入的不穩(wěn)定視頻中多個相鄰幀的內容進行對齊和融合。如圖 3 所示,主要包括三個部分:
傳統(tǒng)的全景圖像拼接(或基于圖像的渲染)方法通常在圖像級別對扭曲(穩(wěn)定)的圖像進行融合。在對齊比較準確時圖像級融合效果良好,但在流估計不可靠時可能產生混合偽影;
可以將圖像編碼為抽象的 CNN 特征,在特征空間中進行融合,并學習到一個解碼器,可將融合后的特征轉換為輸出幀。這種方法對流不準確性具有較好的魯棒性,但通常會產生過度模糊的圖像;
該研究提出的算法結合了這兩種策略的優(yōu)點。首先提取抽象的圖像特征(公式(6));然后融合多幀扭曲的特征。對于每一個源幀,將融合后的特征映射和各個扭曲的特征一起解碼為輸出幀和相關的置信度映射。最后使用公式(8)中生成圖像的加權平均值生成最終輸出幀。
扭曲和融合
扭曲:在虛擬像機空間中,扭曲相鄰幀,使其與目標幀對齊。因為已經有了從目標幀到關鍵幀的扭曲場,以及從關鍵幀到相鄰幀的估計光流,然后可以通過鏈接流向量來計算從目標幀到相鄰幀的扭曲場。因此可以使用向后扭曲來扭曲相鄰幀 I_n 以對齊目標幀。
由于遮擋或超出邊界,目標幀中的一些像素在鄰近幀中不可見。因此,該研究計算每個相鄰幀的可見性掩碼 {}∈ω,來表示一個像素在源幀中是否有效(標記為 1)。該研究使用[Sundaram 等人. 2010] 方法來識別遮擋像素(標記為 0)。
融合空間:研究者探討了幾種融合策略來處理對齊的幀。首先,他們可以在圖像空間中直接混合扭曲的顏色幀產生輸出穩(wěn)定幀,如圖 3(a)所示。這種圖像空間融合方法在圖像拼接、視頻外插和新視角合成中很常用。
為了結合圖像空間和特征空間最佳融合,該研究提出了一種用于視頻穩(wěn)定的混合空間融合機制(圖 3(c))