愛奇藝視頻精彩度分析算法及應(yīng)用
分享嘉賓:劉祁躍 愛奇藝 科學(xué)家
編輯整理:龔云荷
出品平臺:DataFunTalk
第一個是視頻質(zhì)量,比如是否清晰、鏡頭是否晃動、是否有無意義的內(nèi)容,這是基礎(chǔ)的質(zhì)量問題。
第二個是視頻美學(xué),比如色彩是否優(yōu)美,構(gòu)圖是否好,光線明暗對比度是否好。
當(dāng)然,有了質(zhì)量和美學(xué)還不足以說明視頻是否有吸引力,大部分的視頻是靠情節(jié)取勝,也就是靠視頻的內(nèi)容去吸引人,不管是長視頻的電視劇、電影、動漫,還是橫版短視頻和豎版小視頻,都包含著當(dāng)前視頻是何人何地發(fā)生何事,由這樣的內(nèi)容反映精彩度。精彩度是視頻吸引力的第三點,也是最重要的一點。
01
方法及整體框架
這就促使我們?nèi)ニ伎?,如何分析?nèi)容的精彩度,這里有幾個維度:第一,內(nèi)容標(biāo)簽,比如打斗等偏感官層面的信息或者是浪漫等偏高層語義方面的信息,這需要理解視頻內(nèi)容。第二方面是程度等級,比如說打斗,如果是武林高手之間的對決,相比于我們普通人之間打斗會更精彩,所以需要一個分級打分機制。還有一些信息影響到用戶對視頻的喜好,比如對明星、IP、劇集等的喜愛,都會影響用戶對其精彩度的判斷。前面這3點是人們對于視頻精彩度的一個理性分析,但實際上精彩度還是較主觀的看法,同一個視頻,有些人覺得精彩,有些人則不覺得。一些上映之后成為收視率“黑馬”的作品,在上映之前,人們沒有預(yù)期到其足夠精彩,上線之后,卻成為爆款,這體現(xiàn)了對精彩度主觀判斷的局限性,因此我們也要考慮視頻上線后的用戶反饋。比如用戶的播放、彈幕等行為,有些視頻片段用戶會反復(fù)播放,另一些則會被跳過。我們希望通過以上幾個方面,構(gòu)建對于精彩度的認知。
2. 精彩度分析整體技術(shù)框架
由此,我們形成如圖的精彩度分析方案,該方案的適用對象較廣泛,不管是對完整的劇集,還是簡短的花絮,都可以適用,我們這里聚焦于對電影電視劇的片段做分析。影視劇的整體精彩度比較宏觀,受參演明星,改編的小說等已知因素的影響,所以通過算法對整體做精彩度分析收益相對較小。當(dāng)下我們更關(guān)注,對長視頻局部剪輯片段的打分。精彩的局部片段的識別,有助于啟發(fā)創(chuàng)作者對于局部精彩視頻的思考,有利于后續(xù)創(chuàng)作的提升。同時,精彩片段的識別,有助于二次傳播、碎片化時間的消費,以及廣告的投放等。如框圖所示,我們輸入的是視頻片段,然后進行多模態(tài)的視頻特征提取,接下來分兩步,一個是基于GCN的弱監(jiān)督模型,另一個是基于多任務(wù)學(xué)習(xí)的監(jiān)督模型。
視頻精彩度分析算法
1. 精彩度監(jiān)督模型
對于精彩度的監(jiān)督模型,首先需要標(biāo)注人員對視頻精彩度進行打分??紤]到數(shù)據(jù)的復(fù)雜性,會充分利用多模態(tài)和時序關(guān)系去提取信息。操作中會有一些具體技巧,比如由于其標(biāo)注主觀性比較強,會進行噪聲建模,從回歸分?jǐn)?shù)變成一個擬合分布。另外,評分和標(biāo)簽是高度相關(guān)性的,因此可以通過多模型、多任務(wù)學(xué)習(xí)的方式來進行。
2. 不同模型提取特征性能對比
這張圖顯示了采用不同的模型提取特征,對最終精彩度輸出的影響。最初的方法是針對圖片信息采取2D的CNN,再去對幀級別feature進行融合;接著考慮由時序上的3D卷積模型來提特征;然后嘗試根據(jù)預(yù)訓(xùn)練模型來進行微調(diào);再利用視覺+音頻的多模態(tài)的信息進一步提升。
3.?精彩度分?jǐn)?shù)預(yù)測
監(jiān)督模型的一個分支是精彩度分?jǐn)?shù)預(yù)測。對于精彩度分?jǐn)?shù),會先做人工標(biāo)注,但是因為主觀性偏向非常強,所以噪聲較大,可信度并不高。當(dāng)標(biāo)注為某一個分?jǐn)?shù),那它很大概率會是以這個分?jǐn)?shù)為均值的正態(tài)或偏正態(tài)分布。比如標(biāo)注分?jǐn)?shù)是六分,那該視頻可能很大的概率是六分,但也可能會小一些的概率是五分或七分。為減少噪聲影響,會對噪聲做一個建模,直觀的假設(shè),將標(biāo)注的分?jǐn)?shù)看做一個正態(tài)分布的均值。為了滿足概率積分的要求,實際上設(shè)計了一個偏正態(tài)分布。分布的方差通過理論分析+實驗,來確定一個比較合適的值。有了這個分布,對于分?jǐn)?shù)的回歸,可以變成一個類似分類的任務(wù),對于每一個離散值給出一個概率,這樣得到對分布的預(yù)測,從而加權(quán)得到最終預(yù)測的分?jǐn)?shù)。采取該策略后,我們發(fā)現(xiàn)對于噪聲比較大的主觀性標(biāo)注任務(wù)還是有意義的,其它一些圖片回歸任務(wù)我們也用了類似方法,取得了不錯的效果。
4. 看點多標(biāo)簽?zāi)P?/span>
接下來看第二點,關(guān)于視頻內(nèi)容的看點多標(biāo)簽。比如像打斗、爆炸,都是比較有意思的標(biāo)簽,可能是會吸引人的。對于不同類型的視頻,看點的標(biāo)簽是不一樣的。比如說對于偶像片來說,浪漫的標(biāo)簽可能非常有吸引力;對于動作片來說,可能飆車、打斗、槍戰(zhàn)等很有吸引力。多標(biāo)簽?zāi)P?,在近幾年各領(lǐng)域都廣泛關(guān)注,包括短視頻標(biāo)簽、圖片多標(biāo)簽、文本多標(biāo)簽等。多標(biāo)簽的難點,是如何對同樣的信息去生成不同的標(biāo)簽,針對這個問題會有三個方案。第一種是利用信息不同區(qū)域?qū)?yīng)不同的標(biāo)簽,可以類比目標(biāo)檢測。即劃分圖像的不同區(qū)域,用其本身及周邊的信息,去預(yù)測該區(qū)域的一個標(biāo)簽。那第二個是層次的關(guān)系,比如從畫面視覺內(nèi)容來說,一男一女在西餐廳吃燭光晚餐,則需要進行性別識別、場景識別、目標(biāo)檢測等,同時它是一個浪漫的約會場景,所以還可以推理出上層的標(biāo)簽。第三個要考慮的點,是標(biāo)簽之間的依賴關(guān)系,有一些標(biāo)簽很可能經(jīng)常共同出現(xiàn),比如說有海灘和陽光。有一些標(biāo)簽之間不太容易共現(xiàn),比如手機跟古裝片,可能是互斥關(guān)系。當(dāng)然如果能識別這是一個穿越片,就可認為這兩個標(biāo)簽共現(xiàn)是比較和諧的。在很多看點多標(biāo)簽之間,有這種互相依賴的關(guān)系,如何去表達標(biāo)簽的關(guān)系有很多方式,比如說CNN和RNN結(jié)合,通過RNN去顯示地表達標(biāo)簽之間的依賴。那其它一些方式,比如通過標(biāo)簽embedding,希望其去影響分類器,而對于這個embedding,可能會通過圖的拓撲結(jié)構(gòu),根據(jù)相似的鄰域標(biāo)簽信息來修改embedding,從而讓這個embedding包含標(biāo)簽之間的關(guān)系,再將這個embedding以某種方式去影響分類器。還有一種方式,就是訓(xùn)練時找到一個嵌入的空間,把ground truth的多標(biāo)簽投射到嵌入空間,利用多標(biāo)簽去生成一個feature,同時對于待處理的數(shù)據(jù)也生成一個feature,要求這兩個feature要盡可能接近,之間的某種距離可以作為loss之一。這樣,嵌入空間的音視頻feature,即表達了多標(biāo)簽的關(guān)系,可以認為是對多標(biāo)簽的編碼,而后續(xù)的分類過程,就是對多標(biāo)簽的解碼。
5. 多任務(wù)學(xué)習(xí)模型
評分和看點標(biāo)簽這兩個模型高度相關(guān),所以用了多任務(wù)學(xué)習(xí)。因為業(yè)務(wù)有非常多的需求,各需求之間往往有相關(guān)性,經(jīng)常存在多任務(wù)學(xué)習(xí)的可能性。另外,海量數(shù)據(jù)下如何節(jié)省資源,也是非?,F(xiàn)實的需求。如果我們通過多任務(wù)學(xué)習(xí)能夠降低資源消耗,更好的體現(xiàn)相關(guān)性,甚至還有可能提升指標(biāo),那會非常有動力去做多任務(wù)學(xué)習(xí)。我們現(xiàn)在的架構(gòu),底層共享網(wǎng)絡(luò),上層建立評分和標(biāo)簽網(wǎng)絡(luò)。訓(xùn)練策略方面沒有標(biāo)準(zhǔn)化方式,采取一些經(jīng)驗性的方式,動態(tài)調(diào)節(jié)權(quán)重,比如根據(jù)每一路分支loss下降的情況進行調(diào)整,或是動態(tài)分析每路分支的運行情況,修改訓(xùn)練頻次,保持一致的收斂速度。
6. 弱監(jiān)督模型
接下來我們再看一下,弱監(jiān)督模型這一塊。我們有很多用戶觀影行為數(shù)據(jù),是否可用于擬合對分?jǐn)?shù)的標(biāo)注。比如觀看行為,觀看次數(shù)越高,一般也越精彩。但是不同視頻本身熱度不一樣,同一個視頻的不同部分,單純看播放量也不公平,因為很多用戶不會看完整個視頻,一般前面的片段播放量會更高。所以,直接將用戶行為作為精彩度的度量,雖然相對于人工標(biāo)注的分?jǐn)?shù)更能體現(xiàn)用戶的實際偏好,但還是存在非常多的噪聲。為了減少噪聲影響,要做很多數(shù)據(jù)預(yù)處理,比如盡量避免用區(qū)分度不大的數(shù)據(jù)。除了關(guān)心絕對精彩度,也關(guān)心相對大小,即一個視頻中,哪些內(nèi)容相對其余部分更有吸引力。我們往往會從一個視頻當(dāng)中,篩選相對精彩的內(nèi)容,去做二次創(chuàng)作、投放廣告等。在這樣的訴求下,可以采用Ranking思想去設(shè)計Loss。因為噪聲較大,會給label計算置信度,比如可以用相似的樣本來做平滑。這里我們還可以利用圖,設(shè)計圖卷積過濾高頻信息更新樣本feature,實現(xiàn)更好的聚類,并利用更新后的相近節(jié)點來修改樣本置信度,最終有效提升弱監(jiān)督模型效果。
1. 前情提要
前情提要是精彩度相關(guān)的一個應(yīng)用,運用算法對每一集識別出精彩片段,通過一定策略剪輯。雖然前景提要本身是一個用戶產(chǎn)品,但可以在上面投放廣告,并且處于片頭這個黃金位置,實現(xiàn)了很好的商業(yè)價值。
2. 拆條
第二個應(yīng)用是長視頻拆條。做一個比較好的拆條,要從長視頻當(dāng)中選出比較精彩的部分,同時滿足切分方式的合理性。可以方便投放在站內(nèi)或者是站外的各種渠道上,這樣可利用用戶的碎片化時間,一方面形成對短內(nèi)容的消費,一方面也能夠起到短帶長的作用。所以要做拆條的話,不僅僅需要對內(nèi)容本身的理解,也需要對精彩度做分析。
3. 自動生成封面
智能封面圖生成,目前線上的影視劇封面,采用自動生成動態(tài)圖的方式。對視頻中精彩片段進行打分,并需要保證片段的多樣性和代表性。對于圖片也會有精彩度、美學(xué)等分析。不管是靜態(tài)封面圖還是動態(tài)封面圖,都可以生成多個,然后去做個性化的分發(fā),并通過線上的反饋來調(diào)整生成封面圖的策略。
4. 片段打分
還有一個應(yīng)用,是直接對片段的精彩度打分,有利于冷啟動階段的分發(fā);也能給創(chuàng)作者提供參考。
總結(jié)一下,當(dāng)大家思考內(nèi)容平臺的時候,會非常關(guān)注內(nèi)容是否精彩。針對精彩度分析,不只是一個單一的技術(shù),更是一個綜合性的解決策略。可能會利用各種各樣的垂直算法、產(chǎn)品策略,工程策略等,最終形成可行方案。精彩度方案已被廣泛應(yīng)用,并會從質(zhì)量和效率兩個方面的提升來做評價。由于精彩度分析任務(wù)的特點,如需要用到海量數(shù)據(jù)、具有較強主觀性、有很多用戶行為數(shù)據(jù)等,會牽涉到很多技術(shù)方向,像弱監(jiān)督、多任務(wù)、多標(biāo)簽、圖等等。此類偏主觀的分析,用戶標(biāo)準(zhǔn)、用戶行為以及先驗的外部信息,這三個維度都非常重要。
后續(xù)的展望,第一方面是在特征提取上,盡量去融合更多的信息,包括文本的信息,比如臺詞、彈幕等。第二個是在模型上,比如怎么通過半監(jiān)督的方式,把有標(biāo)注和無標(biāo)注的數(shù)據(jù),放到一個統(tǒng)一框架中來。第三點是如何利用各種垂直識別,不管是底層的識別,還是偏上層的推理形成高層語義,需要能把這些信息利用起來,從而知道為什么精彩,作出可解釋的精彩度評價。
嘉賓介紹:
劉祁躍
愛奇藝 |?科學(xué)家
特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:
長按訂閱更多精彩▼
如有收獲,點個在看,誠摯感謝
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!