川普跳「雞你太美」？

時(shí)間：2021-01-08 12:27:35

關(guān)鍵字：圖像合成對抗學(xué)習(xí) 3D

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]來炫個(gè)球技吧，看看川普版的「雞你太美」。

來炫個(gè)球技吧，看看川普版的「雞你太美」：

不如跳舞：只需要一張或多張人物圖像，再提供一個(gè)跳舞視頻，原本靜止的人物就能輕松學(xué)會(huì)跳舞。衣服等細(xì)節(jié)信息一致性良好，就是腳步有點(diǎn)飄……

如下視頻所示，舞蹈的轉(zhuǎn)身和面向背后的動(dòng)作合成效果都有所提升。

據(jù)新論文《Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis》介紹，改進(jìn)版的優(yōu)勢在于源圖像的數(shù)量從一張變?yōu)橐唤M。以動(dòng)作合成為例，源圖像是一組不同視角的圖像，因此合成結(jié)果從多個(gè)角度看起來效果更好。

論文地址：https://arxiv.org/pdf/2011.09055.pdf
GitHub 地址：https://github.com/iPERDance/iPERCore
項(xiàng)目主頁：https://www.impersonator.org/work/impersonator-plus-plus.html

該研究在一個(gè)統(tǒng)一的框架內(nèi)處理人體圖像合成，包括人體動(dòng)作模仿、外觀遷移以及新視圖合成。經(jīng)過訓(xùn)練的模型，能夠處理這些任務(wù)?，F(xiàn)有的任務(wù)特定方法多數(shù)使用 2D 關(guān)鍵點(diǎn)（姿態(tài)）來估計(jì)人體結(jié)構(gòu)。然而，此類方法只表達(dá)位置信息，既無法表征人物的個(gè)性化姿態(tài)，也不能對肢體旋轉(zhuǎn)進(jìn)行建模。
針對以上問題，該研究提出使用 3D 人體網(wǎng)格復(fù)原模塊來解析人體姿態(tài)和形狀，這樣不僅可以對人體關(guān)節(jié)位置和旋轉(zhuǎn)進(jìn)行建模，還可以表征個(gè)性化的人體形狀。為了保存源信息（如紋理、風(fēng)格、顏色、人臉身份信息），該研究提出了一個(gè)新模型 Attentional Liquid Warping GAN，它包含 Attentional Liquid Warping Block (AttLWB)，能夠在圖像和特征空間中將源信息傳播到合成參考中。
具體而言，為了較好地表征源圖像的識(shí)別性信息，該研究采用去噪卷積自動(dòng)編碼器提取源特征。此外，該方法還可以支持來自多源的更靈活的 warping。為了進(jìn)一步提高未知源圖像的泛化能力，該研究采用了 one/few-shot 對抗學(xué)習(xí)。
具體來說，它首先在一個(gè)廣泛的訓(xùn)練集中訓(xùn)練一個(gè)模型。然后，通過 one/few-sho 未知圖像以自監(jiān)督的方式進(jìn)行模型優(yōu)化，得到高分辨率（512 × 512 和 1024 × 1024）的生成結(jié)果。
同時(shí)，該研究還建立了一個(gè)新的數(shù)據(jù)集，即 Impersonator（iPER）數(shù)據(jù)集，用于評(píng)估人體運(yùn)動(dòng)模仿、外觀遷移和新視圖合成。大量的實(shí)驗(yàn)證明了本文所用方法在保持面部信息、形態(tài)一致性和衣服細(xì)節(jié)方面的有效性。