基于CRISP-DM模型的移動(dòng)GPRS業(yè)務(wù)關(guān)聯(lián)規(guī)則應(yīng)用研究
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引 言
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,人們的生活方式發(fā)生了翻天覆地的變化。越來越多的人通過移動(dòng)互聯(lián)網(wǎng)處理生活中的各個(gè)方面,如查找資訊、衣食住行、溝通娛樂、處理工作等 [1]。移動(dòng)業(yè)務(wù)維度多,數(shù)據(jù)量大,關(guān)系復(fù)雜 [2]。GPRS 業(yè)務(wù)是移動(dòng)運(yùn)營商價(jià)值鏈中最重要的組成部分之一,是移動(dòng)運(yùn)營商在移動(dòng)基本業(yè)務(wù)(話音業(yè)務(wù))的基礎(chǔ)上,針對(duì)市場需求開通的可供用戶選擇的智能化業(yè)務(wù)[3]。中國移動(dòng)在其GPRS 網(wǎng)絡(luò)上推出了彩信、WAP、手機(jī)錢包等一系列移動(dòng)業(yè)務(wù),市場需求極大且前景廣闊。因此各運(yùn)營商都在積極尋找GPRS 業(yè)務(wù)方面的殺手級(jí)策略, 試圖以GPRS業(yè)務(wù)應(yīng)用作為發(fā)展契機(jī),確立市場地位。
但移動(dòng) GPRS 業(yè)務(wù)市場占有率不高,帶來的利潤相當(dāng)微薄,很多客戶都不了解相關(guān)GPRS 業(yè)務(wù),導(dǎo)致 GPRS 業(yè)務(wù)的開展工作也不到位。所以必須充分利用移動(dòng)的海量數(shù)據(jù),運(yùn)用關(guān)聯(lián)規(guī)則挖掘方法,挖掘出GPRS 業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系,將數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的信息和知識(shí),更好地向客戶提供 GPRS 服務(wù), 發(fā)現(xiàn)更多商機(jī),讓企業(yè)在競爭中處于不敗之地。
1 CRISP-DM數(shù)據(jù)挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining,CRISP-DM)模型自提出以來,已逐漸發(fā)展成為指導(dǎo)數(shù)據(jù)挖掘活動(dòng)的標(biāo)準(zhǔn)。CRISP-DM 模型包括商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估和模型部署 [4],包含了數(shù)據(jù)挖掘的全過程。
CRISP-DM 模型如圖 1 所示。CRISP-DM 模型定義了六個(gè)階段來指導(dǎo)數(shù)據(jù)挖掘過程,但該順序并非一成不變,在實(shí)際操作中,根據(jù)每一個(gè)環(huán)節(jié)所產(chǎn)生的結(jié)果來確認(rèn)要執(zhí)行的階段或特定環(huán)節(jié),有可能導(dǎo)致循環(huán)往復(fù)的情況出現(xiàn) [5]。數(shù)據(jù)挖掘是一個(gè)以數(shù)據(jù)為中心,循序漸進(jìn)的螺旋式數(shù)據(jù)探索過程[6]。
商業(yè)理解階段的任務(wù)是明確項(xiàng)目的商業(yè)目標(biāo)。只有對(duì)商業(yè)目標(biāo)充分理解后,才能將有效的商業(yè)問題轉(zhuǎn)化為數(shù)據(jù)挖掘解決的問題,并最終將結(jié)果轉(zhuǎn)化為商業(yè)解決方案[7]。
數(shù)據(jù)理解階段,首先收集原始數(shù)據(jù),然后對(duì)數(shù)據(jù)作初步分析 [8],熟悉數(shù)據(jù)的特征,識(shí)別數(shù)據(jù)的質(zhì)量問題,發(fā)現(xiàn)數(shù)據(jù)庫中各表之間的聯(lián)系,完成數(shù)據(jù)探索。
數(shù)據(jù)準(zhǔn)備階段需要對(duì)表、記錄和屬性等數(shù)據(jù)做選擇、清洗、重建、合并等工作。這一步驟一般需要反復(fù)進(jìn)行,直至篩選出最終的數(shù)據(jù)集[9]。
建立模型階段是數(shù)據(jù)挖掘中的一個(gè)重要過程,需要根據(jù)分析目標(biāo)選出和應(yīng)用合適的模型技術(shù),調(diào)整最佳模型參數(shù)。最后通過樣本建立模型對(duì)模型進(jìn)行評(píng)估。
模型評(píng)估階段旨在徹底評(píng)估模型,對(duì)整個(gè)建模的流程進(jìn)行梳理,確保模型可以完成業(yè)務(wù)目標(biāo)。若發(fā)現(xiàn)有重要業(yè)務(wù)問題沒有考慮周全,甚至還需要返回之前的步驟對(duì)挖掘過程重新定義[10,11]。
模型部署階段是客戶用建立的模型去解決實(shí)際中遇到的問題,并根據(jù)需求進(jìn)行監(jiān)督、維持、產(chǎn)生最終報(bào)表、重新評(píng)估模型等過程。
2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是由R.Agrawal[12] 等人于 1993 年提出的,是數(shù)據(jù)挖掘的重要內(nèi)容之一。它側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的關(guān)系,即從事務(wù)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫中找出滿足事先給定最小支持度和最小置信度的多個(gè)域之間的依賴關(guān)系。關(guān)聯(lián)規(guī)則強(qiáng)度通過支持度和置信度度量[13]。支持度為規(guī)則中所有項(xiàng)在事務(wù)中出現(xiàn)的頻度,表示在整個(gè)數(shù)據(jù)庫的重要性,置信度規(guī)則中左邊的項(xiàng)(集)的出現(xiàn)暗示右邊的項(xiàng)(集)出現(xiàn)的頻度,反映其可靠程度。只有支持度和置信度均較高的關(guān)聯(lián)規(guī)則才是用戶感興趣的、有用的關(guān)聯(lián)規(guī)則[14]。
關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),主要用來發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系。沃爾瑪超市對(duì)其顧客的購物行為進(jìn)行購物分析,發(fā)現(xiàn)了 啤酒和尿布 的關(guān)系。零售業(yè)利用此規(guī)則,幫助他們發(fā)現(xiàn)新的交叉銷售機(jī)會(huì)[15]。除購物籃外,關(guān)聯(lián)規(guī)則也可以應(yīng)用到其他領(lǐng)域,如生物信息學(xué)、藥物治療和提高網(wǎng)絡(luò)響應(yīng)速度等方面。
3 基于 CRISP-DM模型GPRS業(yè)務(wù)關(guān)聯(lián)規(guī)則應(yīng)用分析
將CRISP-DM 模型應(yīng)用于移動(dòng)GPRS 業(yè)務(wù)的數(shù)據(jù)挖掘中, 以移動(dòng)的GPRS 業(yè)務(wù)為分析對(duì)象,運(yùn)用關(guān)聯(lián)規(guī)則Apriori 算法來挖掘出GPRS 業(yè)務(wù)之間的關(guān)系。GPRS 業(yè)務(wù)挖掘過程如圖 2 所示。
3.1 商業(yè)理解
根據(jù)移動(dòng) GPRS業(yè)務(wù)使用總流量少,使用人數(shù)不多等問題,必須開展 GPRS營銷策略,推動(dòng)GPRS業(yè)務(wù)的發(fā)展使用。目前,移動(dòng)公司主推手機(jī)視頻、手機(jī)游戲、MobileMarket業(yè)務(wù)和手機(jī)閱讀四項(xiàng)GPRS業(yè)務(wù),因此要挖掘出客戶特征與這四項(xiàng)業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系。從而發(fā)現(xiàn)支持 GPRS業(yè)務(wù)交叉銷售的候選業(yè)務(wù)和潛在的客戶群體,對(duì)特定客戶群推薦 GPRS業(yè)務(wù), 以進(jìn)一步提升客戶保有率和滿意度。
3.2 數(shù)據(jù)理解
確定了數(shù)據(jù)挖掘需要解決的問題后,首先收集原始數(shù)據(jù), 充分熟悉各表中的屬性內(nèi)容和各表之間的關(guān)系與結(jié)構(gòu),確定數(shù)據(jù)支持?jǐn)?shù)學(xué)建模的可行性。
本文從移動(dòng)數(shù)據(jù)庫部分?jǐn)?shù)據(jù)表中抽取如下數(shù)據(jù)信息:
(1) 個(gè)人信息表 :客戶姓名、手機(jī)號(hào)、客戶屬性、性別、出生日期、聯(lián)系地址、證件號(hào)碼、開戶日期、地區(qū)編號(hào)、付費(fèi)方式、銷戶日期等。
(2) 話單數(shù)據(jù)表 :手機(jī)號(hào)、呼叫類型、對(duì)方號(hào)碼、通話開始時(shí)間、通話時(shí)長、地區(qū)號(hào)、對(duì)方所在區(qū)號(hào)、漫游類型、長 途類型、長途分組、IP 電話類型、業(yè)務(wù)類型等。
(3)賬單信息 :手機(jī)號(hào)、賬單開始日期、結(jié)束日期、賬單 總金額、月租費(fèi)、月租功能費(fèi)、滯納金、最后付費(fèi)日期、銷賬日期、 積分情況等。
(4)GPRS 業(yè) 務(wù): 終 端 管 理(DM)、 快 訊(DCD)、 widget 平臺(tái)、手機(jī)報(bào)、航信通、手機(jī)錢包、手機(jī)視頻業(yè)務(wù)、 12530WAP 門戶、彩信相冊(cè) WAP 訪問、音樂隨身聽、中央音 樂平臺(tái)全曲下載平臺(tái)、手機(jī)醫(yī)療、手機(jī)閱讀、掌上營業(yè)廳、手 機(jī)電視 MBBMS、網(wǎng)信平臺(tái)試點(diǎn)、手機(jī)飛信 WAP 網(wǎng)站、飛信、 WAP 統(tǒng)一門戶、號(hào)簿管家、條碼識(shí)別、Mobile Market 業(yè)務(wù)、 車 e 行及手機(jī)導(dǎo)航、游戲業(yè)務(wù)。
移動(dòng)數(shù)據(jù)庫中數(shù)據(jù)表紛繁復(fù)雜,而且很多屬性都不是挖 掘目標(biāo)所需要的。根據(jù) GPRS 業(yè)務(wù)挖掘目標(biāo),深入分析了移動(dòng) 數(shù)據(jù)庫中與此次挖掘相關(guān)的 18 張表,最終在 11張表中完成屬 性探索,確定了 10 個(gè)與此次挖掘主題相關(guān)的屬性集。
{ 客戶品牌(attr_name),客戶年齡(age),在網(wǎng)時(shí)長(tenure), 性別(sex),三個(gè)月平均消費(fèi)額(all_charge),三個(gè)月平均數(shù)據(jù) 業(yè)務(wù)費(fèi)(data_charge),手機(jī)視頻(flash),手機(jī)閱讀(reader), 手機(jī)游戲(game),Mobile Market 業(yè)務(wù) }
用戶品牌中“1”代表全球通品牌“,2”代表神州行品牌“,3” 代表動(dòng)感地帶品牌。入網(wǎng)時(shí)長單位為月。
上述確定的 10 個(gè)屬性中的 6 個(gè)客戶特征屬性與客戶是否 使用 GPRS 業(yè)務(wù)密切相關(guān),這 6 個(gè)屬性的信息基本可以描述 一類客戶群的特征。因此選取這 6 個(gè)屬性作為分析 GPRS 客 戶特征的關(guān)鍵屬性。
3.3 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備主要在建模前完成對(duì)數(shù)據(jù)的清洗和預(yù)處理工作,它在數(shù)據(jù)挖掘中起著至關(guān)重要的作用,因?yàn)閿?shù)據(jù)的質(zhì)量直接影響最終數(shù)據(jù)挖掘的結(jié)果。本次挖掘從移動(dòng)數(shù)據(jù)庫中抽取 1,2,3 月份的數(shù)據(jù),并以 3 月份的數(shù)據(jù)為基準(zhǔn),把 3 月份的數(shù)據(jù)作為樣本集,1,2,3 月份的數(shù)據(jù)作為母本,對(duì)比樣本集中各屬性的分布與母本的分布,確定分布相一致,最終將 3 月份的數(shù)據(jù)作為本次關(guān)聯(lián)規(guī)則挖掘的基本數(shù)據(jù)。但直接抽取的原始數(shù)據(jù)通常是不完整、有噪聲和冗余的,不適合直接用來進(jìn)行數(shù)據(jù)挖掘,所以需要對(duì)這些數(shù)據(jù)集進(jìn)行預(yù)處理。主要完成以下幾方面的處理:
(1) 缺失值處理。例如客戶年齡,因?yàn)楹芏嗫蛻粼谵k理業(yè)務(wù)時(shí)不愿意透露自己的年齡,經(jīng)常隨意填寫或者不填。但移動(dòng)辦理業(yè)務(wù)必須提供自己的身份證號(hào)碼,所以通過客戶的身份證號(hào)碼使用SQL 語句修正客戶的年齡屬性,這樣客戶年齡屬性的正確率就可以提升到百分之八九十左右??蛻舻男詣e屬性也可以通過客戶的身份證號(hào)碼來修正。對(duì)于屬性較為重要但含有較多缺失值的數(shù)據(jù),可通過已知數(shù)據(jù)精確計(jì)算或用通過統(tǒng)計(jì)得到的數(shù)據(jù)替換當(dāng)前丟失的數(shù)據(jù),均值替代缺失值 ;當(dāng)屬性不重要且含有很多缺失值時(shí),忽略該屬性 ;當(dāng)屬性有少量缺失值時(shí)可以刪除帶有缺失值的記錄。
(2) 異常值處理。異常值為重復(fù)記錄,不正確的屬性值。應(yīng)直接刪除停機(jī)客戶、通話時(shí)長為負(fù)值的記錄。
(3) 數(shù)據(jù)簡約處理。由于原始數(shù)據(jù)缺乏統(tǒng)一的標(biāo)準(zhǔn)和定義,所以存在大量冗余屬性,冗余屬性是指一個(gè)屬性可以從其他屬性中推演出來。例如入網(wǎng)時(shí)間和在網(wǎng)時(shí)長,顯然在網(wǎng)時(shí)長可以通過入網(wǎng)時(shí)長推算出來。
(4) 衍生屬性處理。在數(shù)據(jù)理解階段選取的 10個(gè)字段中,產(chǎn)生 2 個(gè)衍生變量,即三個(gè)月平均消費(fèi)額,三個(gè)月平均數(shù)據(jù)業(yè)務(wù)費(fèi)。
(5) 數(shù)據(jù)集成處理。將數(shù)據(jù)庫中多個(gè)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行合并處理,整合存放到一個(gè)一致的數(shù)據(jù)表中。
由于移動(dòng)公司一個(gè)月提取的數(shù)據(jù)量有 31 萬左右,數(shù)據(jù)量過于龐大,從算法的效率考慮,采用隨機(jī)采樣原則。最終確定了一個(gè)含有 10 維 8 000 條記錄的數(shù)據(jù)集,10 維屬性即為圖 3所確定的屬性。部分?jǐn)?shù)據(jù)集如圖 3所示。
圖 3 移動(dòng)原始數(shù)據(jù)集
3.4 建立模型
數(shù)據(jù)挖掘建模就是從歷史數(shù)據(jù)和結(jié)果中找出深層的關(guān)系和規(guī)律。使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則Apriori 算法對(duì)數(shù)據(jù)準(zhǔn)備階段產(chǎn)生的對(duì)象數(shù)據(jù)集進(jìn)行挖掘。
針對(duì)手機(jī)視頻,手機(jī)閱讀,Mobile Market業(yè)務(wù)和游戲業(yè)務(wù),設(shè)定最小支持度 min_sup=10%,最小置信度 min_conf=50%, 運(yùn)用Apriori 算法挖掘這四種業(yè)務(wù)之間的關(guān)聯(lián)性。最終得到的部分挖掘結(jié)果如表 1 所列。
從挖掘結(jié)果中可以發(fā)現(xiàn)GPRS 業(yè)務(wù)之間有趣的關(guān)聯(lián)關(guān)系, 同時(shí)使用手機(jī)視頻和手機(jī)閱讀的客戶占總客戶的 18%,同時(shí)使用這兩種業(yè)務(wù)的客戶占使用手機(jī)視頻客戶的 85%。由此說明, 手機(jī)視頻業(yè)務(wù)和手機(jī)閱讀業(yè)務(wù)之間的關(guān)聯(lián)強(qiáng)度比較大,喜歡手機(jī)視頻業(yè)務(wù)的客戶也比較喜歡手機(jī)閱讀業(yè)務(wù)。
3.5 評(píng)估模型
模型結(jié)果產(chǎn)生后,要對(duì)模型結(jié)果反映的數(shù)據(jù)關(guān)系進(jìn)行科學(xué)的分析與評(píng)估,為此對(duì)上述關(guān)聯(lián)規(guī)則挖掘得到的模型進(jìn)行全面評(píng)估。采用 4 月份的數(shù)據(jù)來檢驗(yàn)?zāi)P?,若檢驗(yàn)后得到一致的挖掘結(jié)果,則說明建立的模型得到的結(jié)果符合實(shí)際客觀規(guī)律。在此基礎(chǔ)上,由移動(dòng)領(lǐng)域的專家對(duì)該模型的有效性進(jìn)行了評(píng)價(jià),證明該模型具有很好的可行性。
3.6 模型發(fā)布
建立的數(shù)學(xué)模型不僅要通過指定樣本檢驗(yàn),還要通過應(yīng)用問題的結(jié)果評(píng)估,即將模型應(yīng)用到實(shí)踐活動(dòng)中,對(duì)模型的挖掘結(jié)果展開應(yīng)用,從而有效促進(jìn)解決實(shí)際問題的決策工作。
通過分析可以看出,基于關(guān)聯(lián)規(guī)則的GPRS 業(yè)務(wù)數(shù)據(jù)挖掘主要是從業(yè)務(wù)角度發(fā)現(xiàn)各業(yè)務(wù)之間的關(guān)系。通過挖掘結(jié)果發(fā)現(xiàn)潛在的高交叉GPRS 業(yè)務(wù),將模型挖掘結(jié)果導(dǎo)出為報(bào)表文件,幫助營銷策劃人員開展精準(zhǔn)營銷活動(dòng)。
可以開展的營銷策略:
(1) 短信電話營銷。根據(jù)挖掘結(jié)果向已開通某一業(yè)務(wù)的客戶主動(dòng)推薦另一種關(guān)聯(lián)強(qiáng)度比較高的業(yè)務(wù),引導(dǎo)其開通相關(guān)聯(lián)的業(yè)務(wù)。
(2) 業(yè)務(wù)捆綁銷售。根據(jù)挖掘結(jié)果、業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系,設(shè)計(jì)出相應(yīng)的業(yè)務(wù)捆綁銷售套餐,從而促進(jìn)業(yè)務(wù)的開展使用。
4 結(jié) 語
本文使用CRISP-DM 模型進(jìn)行 GPRS 業(yè)務(wù)數(shù)據(jù)挖掘,證明了方法的可行性和實(shí)用性,并得到了GPRS 業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系,對(duì)營銷實(shí)踐和營銷策劃起到重要的指導(dǎo)和輔助決策作用。該挖掘結(jié)果模型已應(yīng)用于某移動(dòng)公司的GPRS 業(yè)務(wù)營銷。實(shí)際應(yīng)用表明,該挖掘結(jié)果具有較好的實(shí)用性,推動(dòng)了市場GPRS業(yè)務(wù)的需求與發(fā)展,對(duì)移動(dòng)領(lǐng)域的發(fā)展具有較為重要的現(xiàn)實(shí)意義。