當(dāng)前位置:首頁 > 芯聞號(hào) > 充電吧
[導(dǎo)讀]基于物品的協(xié)同過濾算法(ItemCF)是業(yè)界應(yīng)用最多的算法,主要思想是利用用戶之前有過的行為,給用戶推薦和之前物品類似的物品。基于物品的協(xié)同過濾算法主要分為兩步:1)計(jì)算物品之間的相似度。2)根據(jù)物品

基于物品的協(xié)同過濾算法(ItemCF)是業(yè)界應(yīng)用最多的算法,主要思想是利用用戶之前有過的行為,給用戶推薦和之前物品類似的物品。

基于物品的協(xié)同過濾算法主要分為兩步:

1)計(jì)算物品之間的相似度。

2)根據(jù)物品的相似度和用戶的歷史行為給用戶生成推薦列表。

第一步的關(guān)鍵點(diǎn)在于計(jì)算物品之間的相似度,這里并不采用基于內(nèi)容的相似性,而是去計(jì)算在喜歡物品i的用戶中有多少是喜歡物品j的,這樣計(jì)算的前提是用戶的興趣愛好一般是比較確定的,不容易變,那么當(dāng)一個(gè)用戶對(duì)兩個(gè)物品都喜歡的時(shí)候,我們往往可以認(rèn)為這兩個(gè)物品可能屬于同一分類。令N(i)表示購(gòu)買物品i的用戶數(shù),則物品i和物品j的相似度可以用wij = |N(i)&N(j)|/N(i)來計(jì)算。


第一步時(shí)間復(fù)雜度的改進(jìn)方法:和UserCF類似,我們可以建立一張用戶-物品的倒查表,這樣每次去計(jì)算一個(gè)用戶有過行為的那些物品間的相似度,能夠保證計(jì)算的相似度都是有用的,而不用花大的計(jì)算量在那些0上面(肯定是個(gè)稀疏矩陣)

第一步相似度的改進(jìn)方法1:若根據(jù)上面的公式來計(jì)算相似度,你會(huì)發(fā)現(xiàn),物品i跟流行物品j的相似度很高,因?yàn)榱餍凶x高,所以基本人人都會(huì)買,這樣的話流行度高的物品就比較沒有區(qū)分度,所以我們需要懲罰流行物品j的權(quán)重wij = |N(i)&N(j)|/sqrt(N(i)*N(j))

第一步相似度的改進(jìn)方法2:需要懲罰用戶的活躍度。若用戶活躍度比較低,只買了有限的幾本書,那么這幾本書很有可能在一個(gè)或者兩個(gè)興趣范圍內(nèi),對(duì)計(jì)算物品相似度比較有用,但是如果說一書店賣家趁著打折把亞馬遜90%的書都買了然后賺差價(jià),那么該用戶的行為對(duì)計(jì)算物品相似度就沒什么作用,因?yàn)?0%的書肯定會(huì)覆蓋很多范圍,故應(yīng)該像改進(jìn)方法一中懲罰用戶的活躍度。

第一步相似度的改進(jìn)方法3:物品相似度的歸一話。歸一化不僅僅能提高推薦的準(zhǔn)確度,還可以提高推薦的覆蓋率和多樣性。比如亞馬遜上,用戶的興趣愛好肯定是分成幾類的,很少說愛好集中在一類。假設(shè)有兩類A和B,A類之間的相似度為0.5, B類之間的相似度為0.8,A和B之間的相似度為0.2, 當(dāng)用戶買了5本A類的書和5本B類的書后,我們要給用戶來推薦書,如果按照之前的方法,最后按照相似度排序,那么推薦的應(yīng)該都會(huì)是B類物品,就算B類中排名比較低,但照樣比A類要高阿,所以應(yīng)該根據(jù)類別進(jìn)行相似度的歸一話,這樣一來A的相似度為1,B的相似度也為1,這樣的話排序后的推薦A,B類商品都有,就大大提高了準(zhǔn)確度,覆蓋率和多樣性。

第二步則比較簡(jiǎn)單,計(jì)算物品與用戶已買物品的相似度(權(quán)重和),然后根據(jù)相似度排序選出topN.


ItemCF在實(shí)際系統(tǒng)中運(yùn)用的比較多,主要有兩個(gè)優(yōu)點(diǎn):

1)item-item表相比如user-user表要小的多,處理起來比較容易

2)itemCF容易提供推薦理由,比如給你推薦《機(jī)器學(xué)習(xí)》是因?yàn)槟阒百I過《數(shù)據(jù)挖掘》,這樣能增加信任度,提高用戶和推薦系統(tǒng)的交互,進(jìn)一步增強(qiáng)個(gè)性化推薦


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉