當前位置:首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術》雜志
[導讀]摘 要 :當今時代,信息量呈爆炸式增長,推薦系統(tǒng)是處理海量信息的一種有效方式,也是一種無需用戶提出明確需求就可幫助用戶快速發(fā)現(xiàn)有用信息的工具。在推薦系統(tǒng)中,協(xié)同過濾算法有著重要應用。傳統(tǒng)協(xié)同過濾算法通常使用余弦相似度公式進行興趣相似度計算,但是很多情況下熱門物品會影響到推薦結果,并不能較好地反映用戶需求。文中對傳統(tǒng)協(xié)同過濾算法余弦相似度計算公式提出改進方案,給出一個帶有懲罰因子的余弦相似度修正公式,可以較好地抑制熱門物品對用戶實際相似度的影響,改善用戶近鄰集合的劃分,從而實現(xiàn)更好的推薦效果。經(jīng)實驗測試,推薦系統(tǒng)的性能指標得到了一定的改善。


引 言


隨著信息量的提升,推薦系統(tǒng)開始發(fā)揮越來越重要的作用。目前,推薦系統(tǒng)在新聞行業(yè)、娛樂媒體行業(yè)以及電子商務領域都有著重要的應用。推薦系統(tǒng)領域出現(xiàn)了多種算法, 這些算法都有著明確的應用場景,同時也各有優(yōu)缺點。常用的推薦算法包括基于內容的推薦、基于關聯(lián)規(guī)則的推薦和協(xié)同過濾算法 [1] 等,其中,協(xié)同過濾算法是推薦系統(tǒng)中的經(jīng)典算法之一,在眾多場合都有非常廣泛的應用。該算法目標明確、易于理解,同時實用性很強,無需具備專業(yè)領域的知識即可完成推薦。隨著時間的推移,推薦系統(tǒng)的性能會一直得到增強,因此該算法的自動化程度較高,同時也可較為方便地處理復雜的對象信息和非結構化數(shù)據(jù) [2]。但是協(xié)同過濾算法存在冷啟動、數(shù)據(jù)稀疏、可拓展性差等缺點 [3],這些缺點在實際應用中會影響到推薦系統(tǒng)的性能。本文從實際入手,針對協(xié)同過濾算法傳統(tǒng)的相似度公式無法抑制熱門物品的問題,提出懲罰因子的概念,給出修正后的余弦相似度計算公式,并進行實驗論證。


1 協(xié)同過濾算法

1.1 傳統(tǒng)協(xié)同過濾算法

協(xié)同過濾算法在 1992 年被提出 [5-6],該算法的第一個應用項目是 Tapestry[7]。協(xié)同過濾算法是在獲取到用戶信息后,尋找目標用戶的近鄰集合,選擇近鄰集合中感興趣的對象推薦給目標用戶,其具體步驟如下 :


(1)收集用戶行為,產(chǎn)生用戶評分矩陣

用戶的行為數(shù)據(jù)可以多種形式展現(xiàn)給后臺,因此需要進行預處理。預處理是將自然語言描述的用戶歷史行為轉換為數(shù)字化信息 [8]。預處理之后,將用戶對物品的行為信息描述為一個 m×n 的矩陣 R(m,n),這個矩陣被稱為用戶 - 評分矩陣。矩陣 R 中每一行代表用戶,每一列代表物品對象,Rij 表示用戶 i 對物品對象 j 的評分。同時,采取 0 和 1 兩種數(shù)值的方式表征用戶行為,數(shù)字 1 代表用戶喜歡該物品,反之為不喜歡。用戶評分矩陣 R 為 :

基于懲罰因子的協(xié)同過濾算法的改進與研究

(2) 建立用戶近鄰集合,找出用戶鄰居

用戶近鄰集合是將目標用戶與其他用戶進行相似度計算后生成用戶的近鄰集合。用戶之間的相似度通過相似度公式計算得出。興趣相似度計算公式較多,如 Jaccard 公式、余弦相似度公式等。其中,余弦相似度公式使用較多。

(3) 產(chǎn)生推薦結果

計算用戶 u 對物品 i 的興趣度公式為 :

基于懲罰因子的協(xié)同過濾算法的改進與研究

式中:S(u,K)表示用戶 u的近鄰集合, 包含與 u最接 近的 K個用戶;N(i)表示對物品 i產(chǎn)生行為的用戶集合;

Wuv 表示用戶 u,v 的興趣相似度;rvi 表示用戶 v 對物品 i 的興趣。


1.2 相似度公式

本文使用余弦相似度公式計算興趣相似度。給定用戶 u 與用戶 v,令 N(u)與 N(v)分別表示用戶 u 與用戶 v 曾經(jīng)有過正反饋的物品集合,余弦興趣相似度公式如下 :

基于懲罰因子的協(xié)同過濾算法的改進與研究

通過式(3)可計算出目標用戶與其他用戶之間的相似度值,從而確定用戶的近鄰集合,以便下一步使用。

1.3 算法流程


整個系統(tǒng)算法流程包括收集用戶歷史信息、建立用戶評分矩陣、計算用戶相似度、生成近鄰集合,進而產(chǎn)生推薦。協(xié)同過濾算法流程如圖 1 所示。

基于懲罰因子的協(xié)同過濾算法的改進與研究



2 基于懲罰因子的協(xié)同過濾改進算法

2.1 懲罰因子

若熱門物品出現(xiàn)次數(shù)較多,則會使實際相似度計算結果受到影響,導致推薦的物品都是熱門物品,無法挖掘用戶的實際需求。為了避免這種影響,考慮加入一個懲罰因子作為加權系數(shù),從而抑制熱門物品的影響,因此本文對余弦相似度計算公式進行修正,將物品出現(xiàn)次數(shù)的倒數(shù)作為懲罰因子。物品出現(xiàn)次數(shù)越多,即該商品越熱門,同時,該商品對于用戶興趣相似度的貢獻越少。修正后的公式可衰減熱門物品造成的影響,帶有懲罰因子的修正公式為 :

基于懲罰因子的協(xié)同過濾算法的改進與研究



式中:N(i)表示商品 i 出現(xiàn)的次數(shù);i 表示用戶 u 與用戶 v共同產(chǎn)生行為的商品。通過物品出現(xiàn)的次數(shù)來懲罰熱門物品。

2.2 其他改進參數(shù)

冷啟動是推薦系統(tǒng)設計過程中必須經(jīng)歷的一個過程。由于系統(tǒng)剛剛創(chuàng)建,新注冊的用戶尚未對項目產(chǎn)生有效的行為信息,此時可利用的行為信息極少,這種情況下難以給用戶做出合理的推薦 [9],因此必須考慮從別的渠道獲取更多的用戶信息作為參考。通過用戶的注冊信息挖掘用戶愛好是一種有效的方式,在用戶注冊時加以引導,使用戶提供一些信息,通過這些信息最大限度地挖掘出用戶感興趣的信息。用戶注冊信息完畢后初次登錄時,后臺系統(tǒng)可根據(jù)用戶提交的個人信息進行分析與挖掘,從而做出有針對性的推薦。

2.3 改進后的算法流程

本文在原有的推薦流程中加入懲罰因子的參數(shù),該參數(shù)作為衰減因子可削弱熱門造成的影響,使用用戶對該物品發(fā)生正反饋的次數(shù)衡量物品的熱門程度。物品越熱門,懲罰力度越高,熱門物品對計算興趣相似度帶來的影響越小,因此可較好地解決熱門物品對于推薦效果的影響。改進后的算法流程如圖 2 所示。

基于懲罰因子的協(xié)同過濾算法的改進與研究



3 實驗結果

本文使用目前推薦系統(tǒng)經(jīng)典的數(shù)據(jù)集 MovieLens(m1-1M)進行驗證。MovieLens數(shù)據(jù)集是目前公認的數(shù)據(jù)集之一[10],共有用戶表(Users)、電影表(Movies)及評分記錄表三張表。本文使用準確率與召回率作為實驗數(shù)據(jù)進行評測 [11]。準確率與召回率計算公式為 :

基于懲罰因子的協(xié)同過濾算法的改進與研究



式中:R(u)表示對用戶 u 推薦的 N 個物品;T(u)表示測試集中用戶 u 喜歡的物品的集合。

首先使用經(jīng)典的余弦相似度算法進行計算。將推薦數(shù)量選定為 25,目標用戶的鄰居個數(shù)分別為 2,3,4,5,6,7,8,9,10,20,40。由上述數(shù)據(jù)得到的準確率與召回率(計算結果保留小數(shù)點后四位)見表 1 所列。

基于懲罰因子的協(xié)同過濾算法的改進與研究



由上述實驗數(shù)據(jù)可知,當目標用戶的鄰居個數(shù)為 3 時,準確率與召回率有較好的效果,因此在對修正后的公式驗證時可選定鄰居個數(shù) 3 進行準確率與召回率的對比。余弦相似度公式與修正后的相似度公式對比見表 2 所列。


基于懲罰因子的協(xié)同過濾算法的改進與研究


由表 2 可知,使用余弦相似度公式的準確率為 0.133 8,召回率為 0.154 4,使用帶有懲罰因子的修正公式的準確率為0.144 6,召回率為 0.204 0。實驗結果表明,帶有懲罰因子的修正公式可以較好地抑制熱門物品的影響,提升系統(tǒng)的準確率與召回率。


4 結 語

由于使用傳統(tǒng)的余弦相似度公式時,熱門物品會影響推薦結果,導致推薦的物品幾乎都是熱門物品,因此本文提出帶有懲罰因子的余弦相似度計算公式,使用熱門物品出現(xiàn)次數(shù)的倒數(shù)作為懲罰因子,物品越熱門懲罰力度越大。通過實驗驗證,該算法可使準確率與召回率得到一定的提升,從而提高推薦效率。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉