網(wǎng)易大數(shù)據(jù)用戶畫像實(shí)踐
掃描二維碼
隨時(shí)隨地手機(jī)看文章
分享嘉賓:張長江 網(wǎng)易 大數(shù)據(jù)技術(shù)專家
編輯整理:黃樂平
出品平臺(tái):DataFunTalk
今天的介紹會(huì)圍繞下面三點(diǎn)展開:
-
網(wǎng)易生態(tài)數(shù)據(jù)介紹
-
用戶畫像中心分類
-
網(wǎng)易用戶畫像實(shí)戰(zhàn)案例
整個(gè)用戶畫像實(shí)踐經(jīng)驗(yàn),都依賴于網(wǎng)易易數(shù)中臺(tái),所以首先給大家介紹下網(wǎng)易生態(tài)數(shù)據(jù)情況。
1.?網(wǎng)易數(shù)據(jù)總覽
網(wǎng)易數(shù)據(jù)總覽特征如下:
-
數(shù)據(jù)量超億級(jí),每日上億級(jí)賬號(hào)活躍,可觸達(dá)同人;
-
服務(wù)場景多,生態(tài)較為復(fù)雜,覆蓋多行業(yè)產(chǎn)品線,包括游戲、教育、電商、泛娛樂等;
-
優(yōu)質(zhì)用戶平均標(biāo)簽覆蓋率達(dá)70%以上;
-
提供包括但不限于參與人、流量域、位置域、關(guān)系域等主題域解決方案,即能夠封裝用戶畫像在主題域的通用化模塊。
2. 網(wǎng)易產(chǎn)品線豐富
網(wǎng)易產(chǎn)品線豐富,覆蓋從用戶娛樂、電商購物、教育、新聞資訊等各個(gè)維度用戶行為數(shù)據(jù),APP活躍度高,涵蓋用戶群廣。項(xiàng)目組整體目標(biāo)是通過集團(tuán)數(shù)據(jù)資產(chǎn)構(gòu)建全域資產(chǎn)用戶畫像,已應(yīng)用于網(wǎng)易生態(tài)圈內(nèi)眾多業(yè)務(wù)場景,同時(shí)探索產(chǎn)品化及方法論,服務(wù)于生態(tài)圈外部合作機(jī)構(gòu),進(jìn)行商業(yè)化操作。
3.?全鏈路數(shù)據(jù)中臺(tái)產(chǎn)品矩陣
全鏈路數(shù)據(jù)中臺(tái)產(chǎn)品矩陣,包括底層日志等數(shù)據(jù)源層,數(shù)據(jù)平臺(tái)加工層,整體標(biāo)簽的離線或?qū)崟r(shí)加工、挖掘算法及監(jiān)控,以及上層業(yè)務(wù)應(yīng)用,如智能分析、增長運(yùn)營、推薦搜索等一系列業(yè)務(wù)層應(yīng)用,組成了網(wǎng)易數(shù)據(jù)中臺(tái)產(chǎn)品矩陣。網(wǎng)易易數(shù)產(chǎn)品矩陣,為網(wǎng)易用戶畫像起著極為關(guān)鍵的支撐作用,尤其是數(shù)據(jù)標(biāo)準(zhǔn)體系、數(shù)據(jù)治理平臺(tái)等模塊,很好的承載著用戶畫像落地和質(zhì)量保障。
首先介紹下杭研用戶畫像整體數(shù)據(jù)架構(gòu)及落地情況,主要分為三部分:其一為基礎(chǔ)的用戶畫像,基礎(chǔ)標(biāo)簽 ( 如性別、年齡 )、行為統(tǒng)計(jì) ( 如活躍 )、興趣偏好及預(yù)測等標(biāo)簽;其二為關(guān)系庫部分,即IDMapping;其三為主題域部分,即對(duì)地域、社交、搜索關(guān)鍵詞等相關(guān)方面的工作。
1.?網(wǎng)易數(shù)據(jù)架構(gòu)
網(wǎng)易整體數(shù)據(jù)架構(gòu)底層與各個(gè)業(yè)務(wù)方進(jìn)行數(shù)據(jù)交換合作,共同建立公共數(shù)據(jù)中心,以數(shù)倉為藍(lán)本進(jìn)行架構(gòu)。
中間層為用戶畫像中心:
-
用戶標(biāo)簽的分類包括基礎(chǔ)標(biāo)簽、行為標(biāo)簽、偏好標(biāo)簽以及預(yù)測標(biāo)簽等,不同公司分類方法略有不同,如根據(jù)更新周期,分為靜態(tài)標(biāo)簽 ( 性別等 ) 和動(dòng)態(tài)標(biāo)簽 ( 年齡等 );偏好標(biāo)簽包括用戶的長中短期偏好等,預(yù)測標(biāo)簽主要應(yīng)用于廣告投放部分,例如游戲達(dá)人,高價(jià)值用戶群等。
-
關(guān)系庫主要是IDMapping,目前已經(jīng)有較多的方案論和解決方案,例如多賬號(hào)的歸一用于后續(xù)的業(yè)務(wù)數(shù)據(jù)挖掘工作,提升對(duì)用戶的識(shí)別能力。典型場景為兩個(gè)手機(jī)號(hào)對(duì)應(yīng)只有其中一個(gè)有過注冊行為信息,另一個(gè)沒有注冊行為信息,但對(duì)于上層而言,應(yīng)該打通他們作為同一個(gè)行為主體。關(guān)系庫主要包括同機(jī)網(wǎng)絡(luò) ( 同一設(shè)備多個(gè)ID的關(guān)系 )、同人網(wǎng)絡(luò) ( 同一個(gè)人多個(gè)設(shè)備信息 ) 以及社交關(guān)系 ( 人與人之間的關(guān)系 ) 等。
-
主題域主要包括地域數(shù)據(jù)、廣告數(shù)據(jù)、關(guān)鍵詞和知識(shí)庫方向,其中知識(shí)庫和圖譜數(shù)據(jù),主要應(yīng)用于網(wǎng)易域內(nèi)外內(nèi)容知識(shí)打通。
頂層的應(yīng)用場景包括增長運(yùn)營、推薦搜索、廣告變現(xiàn)、營銷系統(tǒng)、用戶反欺詐及內(nèi)容運(yùn)營等方面,對(duì)業(yè)務(wù)方提供全方位的服務(wù),不局限于單一應(yīng)用場景。還有數(shù)據(jù)規(guī)范和數(shù)據(jù)管理部分,作為數(shù)據(jù)標(biāo)準(zhǔn)化,沉淀經(jīng)驗(yàn)方法論。
2.?網(wǎng)易用戶畫像構(gòu)建流程
用戶畫像整體構(gòu)建流程依托于網(wǎng)易易數(shù)中臺(tái),搭建起完整的業(yè)務(wù)數(shù)倉體系,融合多方業(yè)務(wù)數(shù)據(jù)源。經(jīng)過多年的探索實(shí)踐,已經(jīng)形成完整的用戶畫像體系,從數(shù)據(jù)層面到產(chǎn)品層面,逐漸打磨,提供標(biāo)簽管理、監(jiān)控、報(bào)表、算法、開發(fā)及權(quán)限管理,融合在各業(yè)務(wù)產(chǎn)品體系。諸如關(guān)系圖譜形成API的接口服務(wù)輸出各業(yè)務(wù)方;數(shù)據(jù)服務(wù)包括人群圈選、人群分析等運(yùn)用于市場及運(yùn)營團(tuán)隊(duì);特征庫方面描述了用戶向量化的特征相比標(biāo)簽粒度更為細(xì)膩,適用于算法團(tuán)隊(duì)迭代開發(fā)。在此基礎(chǔ)上沉淀了多種數(shù)據(jù)應(yīng)用,包括增長運(yùn)營、廣告DMP、智能風(fēng)控等方面。
3.?網(wǎng)易用戶標(biāo)簽
目前整體總標(biāo)簽數(shù)達(dá)1000+,其中不包含單一業(yè)務(wù)行為數(shù)據(jù)。標(biāo)簽分類如下:
-
基礎(chǔ)標(biāo)簽,即對(duì)用戶的自然屬性描述,例如性別、年齡、教育背景、生活習(xí)慣 ( 早起晚起 )、地理位置 ( POI信息 )、職業(yè)狀況 ( 所屬行業(yè) )、經(jīng)濟(jì)情況 ( 有車有房 )、設(shè)備信息 ( 手機(jī)、運(yùn)營商等 )、會(huì)員信息 ( 各業(yè)務(wù)方會(huì)員等級(jí) )、衍生信息。其中衍生標(biāo)簽,如評(píng)估是否已婚,在原有的標(biāo)簽體系下沒有此類標(biāo)簽,但可以通過對(duì)多個(gè)標(biāo)簽進(jìn)行組合生成新的標(biāo)簽,包括是否有小孩、30歲滿足某個(gè)條件等。
-
行為標(biāo)簽包括地域、廣告、搜索、全域、播放、點(diǎn)擊、評(píng)論、關(guān)注、收藏、購買等維度。
-
偏好標(biāo)簽包括出行購物、手機(jī)數(shù)碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財(cái)、游戲競技、動(dòng)漫影視、明星藝人等維度。
-
預(yù)測標(biāo)簽包括利用算法等進(jìn)行預(yù)測生成的標(biāo)簽,包括是否出行,是否買車等等。
另外,標(biāo)簽的枚舉值也相當(dāng)重要,業(yè)務(wù)分析過程中很容易出現(xiàn)枚舉值的偏差,不符合實(shí)際業(yè)務(wù)邏輯。除此之外還包括標(biāo)簽間的沖突,例如年齡15歲,學(xué)歷卻是博士或者有小孩,策略類標(biāo)簽是標(biāo)簽領(lǐng)域較為有挑戰(zhàn)性的地方。
用戶標(biāo)簽案例:性別。主要包括三種方案,其一為標(biāo)簽傳播,根據(jù)用戶在各個(gè)業(yè)務(wù)場景,例如母嬰商品點(diǎn)擊行為標(biāo)簽等進(jìn)行item標(biāo)記,構(gòu)建User-Item的興趣網(wǎng)絡(luò)進(jìn)行Graph Embedding,最后進(jìn)行分類預(yù)測用戶的性別;其二為利用NLP算法對(duì)用戶的昵稱進(jìn)行語義分析;其三為利用業(yè)務(wù)屬性自行填寫的內(nèi)容進(jìn)行判斷,此處需要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行過濾,排除諸如出生為1990-01-01的參數(shù)異常值信息。基于上述的三類算法特征結(jié)果集進(jìn)行模型的融合,然后對(duì)用戶的性別進(jìn)行預(yù)測,同時(shí)判斷該用戶性別的準(zhǔn)確率,大部分準(zhǔn)確率在0.6+以上可以應(yīng)用于實(shí)際業(yè)務(wù)場景中。當(dāng)然除了常見的算法融合,還包括數(shù)據(jù)融合、特征融合等等。其中需要突破的地方包括特征的稀疏性,因?yàn)镮DMapping打通后的數(shù)據(jù)覆蓋率僅20%左右,這個(gè)嚴(yán)重影響了模型的整體效果。
4. IDMapping
IDMapping主要指用戶設(shè)備的打通,用于識(shí)別用戶的唯一性,現(xiàn)今采用的手段有兩種,其一通過工程層面打通,如SDK埋點(diǎn),優(yōu)點(diǎn)是準(zhǔn)確率較高,缺點(diǎn)是還會(huì)存在一人多機(jī)等現(xiàn)象,導(dǎo)致了不能夠較好地完整描述一個(gè)用戶畫像;其二指數(shù)據(jù)層面打通,通過ID關(guān)系網(wǎng),采用規(guī)則和算法結(jié)合的方法,進(jìn)行同人識(shí)別,優(yōu)點(diǎn)是很好解決一人多機(jī)現(xiàn)象,缺點(diǎn)是準(zhǔn)確率難以評(píng)估。本次分享,主要指數(shù)據(jù)層面打通。
IDMapping整體的思路及方案,具體要結(jié)合各種賬戶、設(shè)備之間的關(guān)系對(duì),以及設(shè)備使用規(guī)律等用戶數(shù)據(jù),利用規(guī)則過濾+數(shù)據(jù)挖掘算法 ( 連通圖劃分及社區(qū)發(fā)現(xiàn) ) 判斷賬號(hào)是否屬于同人。在IDMapping過程中,常遇到的問題及對(duì)應(yīng)解決方案如下:
-
用戶有多個(gè)設(shè)備信息,定義相應(yīng)的閾值進(jìn)行關(guān)聯(lián)。當(dāng)然,社區(qū)發(fā)現(xiàn)當(dāng)前應(yīng)用于營銷場景,暫沒有用于風(fēng)控或用戶運(yùn)營等場景,因?yàn)闀?huì)把一些異常的賬號(hào)關(guān)聯(lián)在一起,且會(huì)存在僅登錄使用過一次的設(shè)備信息。
-
設(shè)備過期 ( 一般在2年半左右時(shí)間 ),設(shè)定衰減系數(shù),對(duì)單用戶多設(shè)備加大衰減力度。
-
當(dāng)然也會(huì)存在一些異常數(shù)據(jù)信息,通過算法識(shí)別出包括但不限于以下場景,諸如借用朋友設(shè)備、設(shè)備臟數(shù)據(jù)、刷號(hào)等行為軌跡。
IDMapping的存儲(chǔ)方式包括兩個(gè)ID類型 ( 關(guān)系對(duì) )、最近采集時(shí)間、最早采集時(shí)間、采集源數(shù)據(jù)、采集源列表、采集的頻次和周期。其中共線關(guān)系的部分增加了時(shí)間衰減系數(shù),同步遞減應(yīng)用于結(jié)果,同時(shí)也增加了某些參數(shù)的權(quán)重部分用于提高業(yè)務(wù)的可選性和高可性。
5.?地域主題域
地域主題域可以挖掘用戶的需求信息,包括是否有車,是否經(jīng)常去4S店,通過WIFI、設(shè)備等信息獲取親戚、同事等關(guān)系,通過IP可以捕獲學(xué)校的學(xué)生信息,根據(jù)作息規(guī)律進(jìn)行統(tǒng)計(jì)。當(dāng)然除此之外,地域主題域還用于反欺詐領(lǐng)域,針對(duì)黃牛等用戶群進(jìn)行修改地域參數(shù)信息,規(guī)避系統(tǒng)檢測。
6. 用戶畫像管理與存儲(chǔ)
用戶畫像管理與存儲(chǔ)在網(wǎng)易大數(shù)據(jù)經(jīng)歷了多次迭代,包括前期字符串的拼接、手工標(biāo)簽命名、明文關(guān)聯(lián)維表,再到現(xiàn)在利用JsonArray格式進(jìn)行標(biāo)簽類型管理,這種有個(gè)比較大的缺點(diǎn),就是存在冗余嚴(yán)重,正在嘗試新的方案設(shè)計(jì)。
7. 質(zhì)量校驗(yàn)與保障體系
網(wǎng)易標(biāo)簽包含真實(shí)的用戶數(shù)據(jù)及特征用戶數(shù)據(jù),利用無監(jiān)督的算法模型預(yù)測姓名、年齡、有車、有房等,利用有監(jiān)督進(jìn)行提升數(shù)據(jù)質(zhì)量,提升標(biāo)簽的整體效果。主要包括三方面的工作:
-
利用實(shí)名認(rèn)證數(shù)據(jù),作為高可信的樣本集;
-
利用強(qiáng)特征用戶數(shù)據(jù),通過GPS\IP等用戶行為數(shù)據(jù);
-
利用外部數(shù)據(jù),增加高置信用戶數(shù)據(jù)質(zhì)量。
除此之外,還包括利用一些常見的算法,例如交叉驗(yàn)證準(zhǔn)確率和召回率,線上ABTest、算法離線驗(yàn)證、運(yùn)營活動(dòng)驗(yàn)證、真實(shí)數(shù)據(jù)驗(yàn)證等等方案。
質(zhì)量保障標(biāo)簽管理方法論,包括以下四點(diǎn):
-
每個(gè)標(biāo)簽定義第一責(zé)任人,用于快速響應(yīng)業(yè)務(wù)需求,同時(shí)處理標(biāo)簽異常問題;
-
流程優(yōu)化,標(biāo)簽的流程較為漫長,需要了解業(yè)務(wù)、算法、開發(fā)的全流程,利用端到端的模式,通過快速響應(yīng)增加標(biāo)簽規(guī)范化的評(píng)審工作;
-
測試監(jiān)控方面,測試在標(biāo)簽上線前對(duì)標(biāo)簽規(guī)范和質(zhì)量輸出測試報(bào)告,預(yù)測則是針對(duì)規(guī)范、枚舉值等范圍,建立監(jiān)控預(yù)警機(jī)制;
-
管理平臺(tái)化,則是標(biāo)簽生產(chǎn)、加工、處理、應(yīng)用全流程體系化、標(biāo)簽化、工具產(chǎn)品化,不斷迭代升級(jí)。
最后和大家介紹下網(wǎng)易用戶畫像實(shí)戰(zhàn)案例。
1.?應(yīng)用場景豐富
網(wǎng)易用戶的多元化數(shù)據(jù),能夠精準(zhǔn)定位用戶,覆蓋范圍廣,包括但不限于以下業(yè)務(wù)目標(biāo)場景:
-
市場營銷:為人群圈選、人群洞察等提升營銷價(jià)值;
-
推薦搜索:為網(wǎng)易算法團(tuán)隊(duì)提供數(shù)據(jù)輸入;
-
增長運(yùn)營:為用戶研究、數(shù)據(jù)運(yùn)營等提供數(shù)據(jù)支撐;
-
廣告投放:為廣告主提供人群定向投放功能;
-
智能風(fēng)控:為營銷反欺詐,諸如薅羊毛、資金風(fēng)險(xiǎn)、異常用戶識(shí)別提供特征算法服務(wù)。
這里重點(diǎn)講解下營銷反欺詐薅羊毛案例,此類用戶資源池有限,通過頻繁地切換IP、WIFI等設(shè)備信息,規(guī)避風(fēng)險(xiǎn)。利用用戶畫像及其特征,切入智能風(fēng)控,能夠提升6%的風(fēng)險(xiǎn)用戶識(shí)別率,同時(shí)結(jié)合知識(shí)圖譜、IP黑名單、異常設(shè)備等方面的數(shù)據(jù)信息,能夠較好地?cái)U(kuò)大數(shù)據(jù)價(jià)值。
2.?用戶畫像案例
通過覆蓋用戶出行、娛樂、設(shè)備、購買、地址等維度數(shù)據(jù),基于基礎(chǔ)標(biāo)簽、事實(shí)標(biāo)簽以及預(yù)測標(biāo)簽等標(biāo)簽,應(yīng)用于上述提及的多個(gè)業(yè)務(wù)場景中。通過用戶畫像,可以知道用戶偏好,購買相關(guān)等偏好信息。
3.?實(shí)時(shí)全鏈路推薦案例
網(wǎng)易用戶數(shù)據(jù)服務(wù)實(shí)時(shí)方案,打通各個(gè)業(yè)務(wù)場景的數(shù)據(jù)孤島信息,實(shí)時(shí)融合用戶的數(shù)據(jù)資產(chǎn),深度洞察分析用戶屬性信息,支撐各個(gè)業(yè)務(wù)間數(shù)據(jù)打通和服務(wù),實(shí)現(xiàn)了"采集+計(jì)算+調(diào)用"的實(shí)時(shí)全鏈路體系。例如,在冷啟動(dòng)新客階段,利用用戶畫像能力,將離線特征放進(jìn)HBase中進(jìn)行實(shí)時(shí)計(jì)算,在多業(yè)務(wù)場景進(jìn)行交叉,全鏈路支撐各業(yè)務(wù)數(shù)據(jù)打通和服務(wù),為業(yè)務(wù)方提供二次服務(wù)。另外,利用實(shí)時(shí)用戶畫像結(jié)合知識(shí)圖譜捕獲用戶行為軌跡,避免用戶流失后造成的無購買、點(diǎn)擊等行為,進(jìn)行二次觸達(dá),增加業(yè)務(wù)轉(zhuǎn)化效率。
4.?總結(jié)
網(wǎng)易數(shù)據(jù)用戶畫像中臺(tái)顯著提高了數(shù)據(jù)生產(chǎn)力,逐步沉淀方法論和產(chǎn)品,賦能域內(nèi)眾多業(yè)務(wù)場景,探索外部商業(yè)化解決方案。
嘉賓介紹:
張長江
網(wǎng)易 | 大數(shù)據(jù)技術(shù)專家
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場,如有問題,請聯(lián)系我們,謝謝!