在剛剛落幕的東京奧運(yùn)會(huì)上,中國(guó)體育代表團(tuán)取得了38枚金牌、32枚銀牌、18枚銅牌的優(yōu)異成績(jī)。這屆奧運(yùn)會(huì)期間,除了全民熱議運(yùn)動(dòng)健兒的精彩表現(xiàn)之外,還有一項(xiàng)神奇的變身特效活動(dòng)——「我的奧運(yùn)奪冠時(shí)刻」也在全網(wǎng)發(fā)酵,引得網(wǎng)民爭(zhēng)相試玩和轉(zhuǎn)發(fā)。
在手機(jī)QQ的相機(jī)功能中,或者天天P圖app中,只需上傳一張自己的半身照或是全身照,就可以一秒get奧運(yùn)健兒的同款?yuàn)Z冠時(shí)刻,讓眾多網(wǎng)友大呼“神奇”,“玩得停不下來(lái)”。
在這個(gè)變身特效視頻的背后,是QQ影像中心研發(fā)的人體姿態(tài)遷移技術(shù)。人體姿態(tài)遷移技術(shù)簡(jiǎn)單來(lái)說(shuō),就是給到機(jī)器一副含有人物的圖片和一個(gè)目標(biāo)姿態(tài),之后經(jīng)過(guò)計(jì)算將人物轉(zhuǎn)換為目標(biāo)姿態(tài)的狀態(tài)。
區(qū)別于人臉特效功能,圍繞人體的GAN生成落地難度較大。在人體動(dòng)作遷移實(shí)現(xiàn)過(guò)程中,動(dòng)作跨度大、像素搬移多、紋理復(fù)雜、動(dòng)作自由度高和自遮擋頻繁等干擾因素導(dǎo)致生成指定姿態(tài)的人體一直比較困難。目前,主流的人體人體姿態(tài)遷移方案有2D warp、3D warp和不依賴warp的解決方案,這三種方式各有利弊,且并未真正落地于實(shí)際商業(yè)生產(chǎn)應(yīng)用。
三大技術(shù)突破,解鎖人體姿態(tài)遷移動(dòng)效新體驗(yàn)
針對(duì)現(xiàn)有方案的不足,并考慮在實(shí)際應(yīng)用中,多圖或視頻輸入的姿態(tài)遷移方法會(huì)使得用戶使用門檻很高,帶來(lái)不太好的用戶體驗(yàn)。QQ影像中心團(tuán)隊(duì)采用基于單圖的3D人體重建結(jié)合GAN生成的技術(shù)路線。
首先,比起主流方式所需要的視頻+在線微調(diào)(finetune)模式,QQ影像中心的技術(shù)只需要單張用戶圖就可以完成姿態(tài)遷移,并且不需要在線進(jìn)行模型微調(diào)。如此,便能成功將用戶的交互難度大大降低。
針對(duì)難度極大的3D人體重建,雖然市面上有開源的3D mesh數(shù)據(jù)庫(kù),比如加州伯克利分校的開源端到端框架HMR,但是效果并不理想。所以QQ影像中心團(tuán)隊(duì)為此專門研發(fā)了一套人體3D重建算法,讓整個(gè)效果更為流暢連貫。輸入單張用戶圖片,就能得到精確地人體形狀和紋理,繼而將動(dòng)態(tài)變化的每一幀都轉(zhuǎn)化到參考幀上,再經(jīng)過(guò)計(jì)算制作成特效。
其次,是生成清晰度高,紋理還原度好,支持更高分辨率輸出(1024x1024)。比起原先2D warp、3D warp在逼真程度和清晰度上的短板,QQ影像中心算法能夠保證其生成質(zhì)量。其中利用人體分割和背景填充技術(shù),完成目標(biāo)視頻的背景修補(bǔ)。
而針對(duì)3D warp圖紋理信息粗糙的現(xiàn)象,則利用GAN網(wǎng)絡(luò)來(lái)細(xì)化(refine)用戶warp圖。具體做法是將用戶信息與warp圖信息在GAN網(wǎng)絡(luò)中融合,生成自然的目標(biāo)姿態(tài)用戶圖。在這一步中GAN網(wǎng)絡(luò)又分為兩個(gè)子網(wǎng)絡(luò),分別是重建網(wǎng)絡(luò)與姿態(tài)生成網(wǎng)絡(luò)。將用戶圖重建,之后生成網(wǎng)絡(luò)輸入粗粒度warp圖,之后接受重建網(wǎng)絡(luò)的特征圖并進(jìn)行特征融合,以保證細(xì)節(jié)信息的準(zhǔn)確性,之后特征圖將進(jìn)入解碼器,融合前景和特征圖,最后得到輸出圖。
最后,針對(duì)基于3D的技術(shù)方案容易遇到動(dòng)作僵硬的問(wèn)題,QQ影像中心通過(guò)平滑策略、2D點(diǎn)輔助優(yōu)化等策略,既保證了素材的動(dòng)作準(zhǔn)確性,也使動(dòng)作更加連貫自然。
其實(shí),這次「我的奧運(yùn)奪冠時(shí)刻」變身特效的爆款出圈并非首例。此前,手機(jī) QQ相機(jī)功能中內(nèi)嵌的熱門AI玩法——漫畫臉,迪士尼童話臉等,同樣出自QQ影像中心團(tuán)隊(duì)。
從人臉特效到人體動(dòng)作遷移,QQ影像中心持續(xù)探索前沿 AI 和 CV 算法,致力于將前沿的 AI 能力、3D 渲染技術(shù)以及先進(jìn)的玩法賦能產(chǎn)品。團(tuán)隊(duì)在語(yǔ)義分割、目標(biāo)檢測(cè)、分類識(shí)別、GAN生成對(duì)抗等方面的深厚技術(shù)積累,在AI生成領(lǐng)域已進(jìn)行了很多相關(guān)算法的研發(fā)和落地工作。
值得期待的是,未來(lái)QQ影像中心也會(huì)帶來(lái)更多特效玩法落地,給用戶帶來(lái)更多有趣的科技體驗(yàn)。
關(guān)于騰訊QQ影像中心
騰訊QQ影像中心(原騰訊光影研究室)是騰訊旗下專注于研究前沿影像處理技術(shù)的團(tuán)隊(duì),在單目深度估計(jì)技術(shù)、語(yǔ)義分割、目標(biāo)檢測(cè)、分類識(shí)別、GAN生成對(duì)抗等方面均有深厚的技術(shù)積累。團(tuán)隊(duì)一直致力于探索泛娛樂(lè)綜合解決方案,將前沿的AI能力、先進(jìn)的玩法引擎和3D渲染技術(shù)賦能產(chǎn)品,讓視覺(jué)創(chuàng)意更多樣,音視頻編輯更智能,社交溝通更趣味。