大數(shù)據(jù)挖掘在寄遞業(yè)的應(yīng)用
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引 言
本次研究從實(shí)戰(zhàn)理念出發(fā),從基礎(chǔ)工作做起,運(yùn)用先進(jìn)的大數(shù)據(jù)技術(shù)對(duì)現(xiàn)有寄遞行業(yè)數(shù)據(jù)進(jìn)行整合,構(gòu)建新的大數(shù)據(jù)應(yīng)用系統(tǒng)。該系統(tǒng)建設(shè)包含本地快遞數(shù)據(jù)以及其他相關(guān)數(shù)據(jù)的數(shù)據(jù)中心,并在此數(shù)據(jù)中心基礎(chǔ)上與其他各地實(shí)現(xiàn)全國(guó)聯(lián)網(wǎng)、異地協(xié)作等功能的郵路偵控信息化平臺(tái),通過(guò)該系統(tǒng)可與其他地市進(jìn)行數(shù)據(jù)交換。通過(guò)該系統(tǒng)的建設(shè),將極大豐富行動(dòng)技術(shù)部門的信息資源,形成可甄別特定信息,查除異端快件信息的監(jiān)控網(wǎng)絡(luò) [1]。
1 系統(tǒng)整體設(shè)計(jì)
系統(tǒng)針對(duì)寄遞行業(yè)特點(diǎn),結(jié)合基礎(chǔ)資料進(jìn)行機(jī)主信息分析、寬帶信息分析、逃犯信息分析,同時(shí)可在大數(shù)據(jù)中進(jìn)行人員關(guān)系分析、號(hào)碼關(guān)系分析、物品關(guān)系分析。分析的結(jié)果可保存在中間庫(kù),并進(jìn)行信息共享,方便用戶使用。系統(tǒng)設(shè)計(jì)如圖 1 所示。
結(jié)合寄遞公司基本功能要求,系統(tǒng)以可擴(kuò)展結(jié)構(gòu)實(shí)現(xiàn)多種數(shù)據(jù)的接入。針對(duì)不同的數(shù)據(jù)源可定制專屬的數(shù)據(jù)抓取工具,實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)抓取,系統(tǒng)中需要附帶專業(yè)的數(shù)據(jù)抓取工具。應(yīng)對(duì)不同的數(shù)據(jù)格式,實(shí)現(xiàn)可動(dòng)態(tài)配置的數(shù)據(jù)格式化工具,數(shù)據(jù)格式化由數(shù)據(jù)格式化軟件負(fù)責(zé),數(shù)據(jù)格式化軟件運(yùn)行在格式化機(jī)上,主要功能包括將各種來(lái)源的數(shù)據(jù)快速、準(zhǔn)確地轉(zhuǎn)換為統(tǒng)一格式,同時(shí)進(jìn)行數(shù)據(jù)整理和標(biāo)準(zhǔn)化處理,以便于后續(xù)的處理工作。抓取的源數(shù)據(jù)其來(lái)源與格式千差萬(wàn)別,具有數(shù)據(jù)量大、實(shí)時(shí)性要求高等特點(diǎn),是本系統(tǒng)處理的重點(diǎn)。數(shù)據(jù)格式化在進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理時(shí),需要進(jìn)行解壓、解析、數(shù)據(jù)標(biāo)準(zhǔn)化整理、預(yù)警等過(guò)程,具有統(tǒng)一的查詢平臺(tái)和查詢接口,統(tǒng)一的預(yù)警體系和預(yù)警接口等 [2-3]。
2 大數(shù)據(jù)挖掘與應(yīng)用
系統(tǒng)支持普通查詢和綜合查詢。對(duì)于普通查詢而言,可以針對(duì)某個(gè)字段,如號(hào)碼、基站代碼、機(jī)身碼進(jìn)行查詢,在普通查詢時(shí)可以輸入多個(gè)條件進(jìn)行批量查詢。為了提高工作效率,這些條件既可人工輸入,也可以從其他文件中導(dǎo)入。綜合查詢時(shí)操作員可根據(jù)需要設(shè)置各種查詢條件,這些條件用“與”“或”邏輯關(guān)系組合起來(lái) [4]。
2.1 大數(shù)據(jù)挖掘
大數(shù)據(jù)使用計(jì)算機(jī)進(jìn)行分析處理。針對(duì)海量數(shù)據(jù),人腦的處理速度遠(yuǎn)遠(yuǎn)不比計(jì)算機(jī)處理速度快、效率高。比如對(duì)不同的粗糙粒度進(jìn)行全維度分析,就需借助人機(jī)綜合系統(tǒng),而這就是科技發(fā)展帶來(lái)的優(yōu)勢(shì) [5]。
當(dāng)產(chǎn)生了抽象模型,可以針對(duì)每一個(gè)人積累的數(shù)據(jù)進(jìn)行模式匹配和模式識(shí)別,從而進(jìn)行針對(duì)某種特定需求的操作判斷。比如一家銷售化妝品的公司可以對(duì)積累的海量用戶消費(fèi)數(shù)據(jù)進(jìn)行篩選,根據(jù)模型識(shí)別匹配出目標(biāo)客戶群,從而找到目標(biāo)客戶群,并進(jìn)行有針對(duì)性的營(yíng)銷,不同用戶群接觸的媒體類型不同,尋找每個(gè)人的媒體接觸習(xí)慣與接觸時(shí)間,甚至能夠預(yù)測(cè)下一次將在什么地方接觸到,方便定向推廣預(yù)定信息,做到有的放矢,提高命中率。
大數(shù)據(jù)的挖掘運(yùn)用越來(lái)越向定制化、個(gè)性化方向發(fā)展。個(gè)性化才能收到最佳效果,而個(gè)性化來(lái)自于精準(zhǔn)的判斷,精準(zhǔn)的判斷來(lái)自于豐富的模型和經(jīng)驗(yàn)。因此只有挖掘出有價(jià)值的信息,才能使應(yīng)用更廣泛 [6-7]。
2.2 大數(shù)據(jù)應(yīng)用
系統(tǒng)運(yùn)用大數(shù)據(jù)挖掘技術(shù),使用預(yù)先建立的數(shù)據(jù)模型進(jìn)行大數(shù)據(jù)分析。系統(tǒng)的主要功能包括名址查詢、快速查詢、組合查詢、全文檢索、查詢模板、結(jié)果再處理、專題數(shù)據(jù)、城市信息查詢、歸屬地查詢、重點(diǎn)庫(kù)查詢、從業(yè)人員查詢、服務(wù)結(jié)果、審批查詢、日志查詢等。通過(guò)上述操作可以現(xiàn)實(shí)以下功能。
(1) 通過(guò)號(hào)碼(姓名、地址)等分析多個(gè)號(hào)碼(姓名、地址)間是否有快遞聯(lián)系,可在后臺(tái)執(zhí)行。從資料庫(kù)或中間庫(kù)中找出一組號(hào)碼中存在的記錄,或該組號(hào)碼不存在的記錄。根據(jù)聯(lián)系人、姓名、地址不變的原則,以原號(hào)碼為基礎(chǔ),找出某兩段時(shí)間內(nèi)同一姓名地址使用與原號(hào)碼不同的通訊工具, 該通訊工具基本可判定為同一人使用。
(2) 通過(guò)關(guān)系網(wǎng)分析,集合號(hào)碼查詢關(guān)系人或者關(guān)系人的關(guān)系人等多層次聯(lián)系對(duì)象的話單。該模型是聯(lián)系圈模型及多層次聯(lián)系對(duì)象現(xiàn)場(chǎng)比對(duì)分析等模型的基礎(chǔ)。以號(hào)碼為第一層號(hào)碼對(duì)其聯(lián)系對(duì)象進(jìn)行統(tǒng)計(jì) ;以第一層號(hào)碼的聯(lián)系對(duì)象為第二層、以第二層的聯(lián)系對(duì)象為第三層,依次類推,直到指定層次,組成一個(gè)關(guān)系集合。
(3) 根據(jù)人與群分的特性,多個(gè)嫌疑人可能有共同聯(lián)絡(luò)人,輸入一批嫌疑號(hào)碼,找出與他們有共同聯(lián)系的人,這些人也帶有一定的嫌疑性。
(4) 根據(jù)特定號(hào)碼收發(fā)郵件的時(shí)間來(lái)分析特定號(hào)碼的活動(dòng)規(guī)律,是白天在家,還是晚上在家 ;是工作日在家,還是周末在家等。
(5) 找出郵遞頻率比較高的記錄,分析其發(fā)送郵包的內(nèi)容,查驗(yàn)是否包含違禁品。
(6) 系統(tǒng)找出一個(gè)電話采用不同地址收發(fā)郵件的記錄或找出收發(fā)雙方采用不同快遞收發(fā)郵件的信息,查驗(yàn)是否具有涉嫌零散組裝貨物,逃避檢查的嫌疑。
(7) 通過(guò)歸屬地與地址不符分析,找出手機(jī)歸屬地與收件地址不符的信息,進(jìn)一步排除。
(8) 以物品為中心,按時(shí)間、地區(qū)、網(wǎng)點(diǎn)、人員、號(hào)碼等分析出特定物品的流動(dòng)特性。如突發(fā)性地在一個(gè)月內(nèi)有大量筆記本電腦從 A地發(fā)往 B地,這樣的信息極其可疑 [8-10]。
3 結(jié) 語(yǔ)
本系統(tǒng)建立本地?cái)?shù)據(jù)庫(kù)并從各渠道實(shí)時(shí)或定時(shí)獲取數(shù)據(jù),可以有效提供數(shù)據(jù)規(guī)范化系統(tǒng)需要的靈活的數(shù)據(jù)規(guī)范化工具,以幫助進(jìn)行數(shù)據(jù)規(guī)范化工作,加快行業(yè)標(biāo)準(zhǔn)化運(yùn)營(yíng)發(fā)展。
系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)比對(duì),對(duì)業(yè)務(wù)數(shù)據(jù)、知識(shí)庫(kù)內(nèi)的信息進(jìn)行數(shù)據(jù)關(guān)聯(lián)規(guī)則和比對(duì)策略設(shè)置,實(shí)現(xiàn)定時(shí)或即時(shí)分析與比對(duì), 當(dāng)滿足條件后,自動(dòng)通報(bào)比對(duì)結(jié)果。在變化的數(shù)據(jù)入庫(kù)后執(zhí)行相關(guān)數(shù)據(jù)比對(duì)工作,細(xì)致詳盡規(guī)劃查詢信息,快遞收件人姓名、收件人手機(jī)號(hào)、收件人地址的真實(shí)程度越高,越有助于查詢異常和重點(diǎn)關(guān)注快件,可以提取出這類信息建立一個(gè)實(shí)時(shí)準(zhǔn)確的人員信息庫(kù)。
利用寄遞行業(yè)數(shù)據(jù)真實(shí)程度高這一特性,結(jié)合已知的犯罪行為模式進(jìn)行數(shù)據(jù)挖掘,可以類比出異常數(shù)據(jù)發(fā)現(xiàn)犯罪。后期在條件允許的情況下可以和各個(gè)公司進(jìn)行聯(lián)網(wǎng)實(shí)時(shí)取得數(shù)據(jù),并進(jìn)行預(yù)警,有助于公安系統(tǒng)維護(hù)社會(huì)和諧,打擊犯罪活動(dòng)。