1 引 言
Web信息的迅速增長造成信息過載,用戶查找信息需借助搜索引擎,而搜索引擎提供的服務(wù)卻難以令人滿意。一方面由于用戶和系統(tǒng)的交互性差,用戶清楚自己的信息需求特征卻無法描述,另一方面由于搜索引擎自身特性,無法過濾與用戶無關(guān)的文檔。
本文希望采用網(wǎng)絡(luò)智能思想,通過多智能代理技術(shù),結(jié)合用戶的基本信息和動態(tài)信息建立用戶模型和用戶群模型,運用信息檢索和數(shù)據(jù)挖掘技術(shù),建立了一個個性化信息檢索模型。結(jié)合智能體的思想,通過某種方式完成信息查找、過濾和調(diào)整。使得系統(tǒng)具有靈活性、智能性和擴充性。
2 Agent技術(shù)
Agent是一個實體,具有一定的知識,并能夠針對特定目標(biāo)有效地運用知識求解問題,具有自主性、交互性、適應(yīng)性、進化性、可通信性、理性等特性。每個Agent會觀察用戶的動作,主動提供處理環(huán)境所需技術(shù),根據(jù)用戶反饋不斷更新檢索結(jié)果,為實現(xiàn)Web信息檢索智能化提供了有力支持。
多Agent是指具有不同目標(biāo)的多個Agent對其目標(biāo)、資源等進行合理的安排,以協(xié)調(diào)各自行為,最大程度地實現(xiàn)各自的目標(biāo),它由多個Agent組成,每個Agent又是一個自治計算實體,具有目標(biāo)、知識、能力。多Agent適應(yīng)個性化信息檢索處理環(huán)境所需的靈活性的特點,可以在Web上建立能夠完成相應(yīng)功能的Agent,通過學(xué)習(xí)不斷適應(yīng)調(diào)整并通過交互相互通信合作,協(xié)助用戶準(zhǔn)確、有效地獲取信息。
智能代理技術(shù),主要是指具有智能性,可支持高級、復(fù)雜自動處理代理軟件技術(shù),并能夠按照設(shè)計者指示要求獨立收集信息并在再次過程中自我學(xué)習(xí),具有自動性,目標(biāo)驅(qū)動性。連續(xù)性和能動性等特點,可以在較高的程度上去分辨識別、理解與應(yīng)用其用戶的需求及其特征。智能代理技術(shù)為Internet上自動的信息收集提供框架?;诖斯δ芴匦?,通過對相關(guān)應(yīng)用和系統(tǒng)的分析,提出了一個基于MAS的實現(xiàn)框架。
個性化信息檢索是指根據(jù)用戶的興趣和特點進行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。一般檢索過程:首先用戶輸入查詢請求,然后搜索引擎搜索文檔,并將搜索結(jié)果返回給用戶,最后用戶查看相關(guān)文檔或者修改查詢請求。查看相關(guān)文檔或者修改查詢請求是用戶對檢索信息的反饋,能夠反映用戶信息需求及其變化。通過反饋信息,實現(xiàn)用戶個人Agent和用戶群Agent的模型更新,完成個性化過濾和協(xié)作式推薦2部分功能,因此用戶個人Agent和用戶群Agent是系統(tǒng)的核心。圖1表示該個性化信息檢索模型框架結(jié)構(gòu)。
下面對用戶個人Agent、用戶群Agent、推薦Agent、過濾Agent功能模塊在實現(xiàn)機制上進行分析說明。
2.1 用戶個人Agent
用戶模型的表示采用向量空間模型的方法,將用戶模型表示成一個n維特征向量:
向量的每一維由一個關(guān)鍵詞及其權(quán)重組成。權(quán)重表示用戶是否對某個概念感興趣以及感興趣的程度,文檔模型表示成為一個n維特征向量:
向量的每一維由一個關(guān)鍵字及其權(quán)重組成。tj表示文檔中的關(guān)鍵字j,wji表示關(guān)鍵字j在文檔i中的權(quán)重。這種方法有利于表達(dá)概念在不同用戶模型中的重要程度,而且有利于后續(xù)階段匹配任務(wù)。用戶模型的更新采用動態(tài)信息增補技術(shù),動態(tài)信息增補對反饋過濾的信息加入到用戶模型后調(diào)整各向量的權(quán)重,與用戶無關(guān)的特征向量隨著權(quán)值的減小從模型中被刪除。
2.2 用尸群Agent
用戶群Agent的建立采用聚類技術(shù)。聚類是將具有相同特征的項目和用戶分類,用于建立用戶綜合模型。該聚類為個體和類之間的聚類而不是個體之間的聚類。用戶模型表示成1個n維特征向量:ui={(t1,w1),(t2,w2),…,(tn,wn)},用余弦公式計算用戶和類的相關(guān)度。用戶聚類采用關(guān)鍵詞匹配法,根據(jù)需要設(shè)定閥值ε,當(dāng)用戶和類之間相似度大于ε時,說明用戶屬于該類,興趣相同。用戶群Agent更新算法為用戶群模型的更新為追蹤推薦模型中符合要求的關(guān)聯(lián)文檔點擊次數(shù),隨著點擊次數(shù)的增加,推薦用戶的個人Agent的權(quán)重增加。
2.3 查詢Agent
查詢Agent一方面負(fù)責(zé)用戶Agent查詢引導(dǎo),另一方面接受用戶群Agent的查詢擴展。
用戶個人Agent查詢引導(dǎo),將用戶特征模型的向量根據(jù)反饋信息提取用戶查詢結(jié)果的有關(guān)信息和無關(guān)信息,將其特征向量加入模型作為調(diào)節(jié)因子,其調(diào)節(jié)因子為布爾值,表示用戶是否感興趣,從而引導(dǎo)用戶查詢,修改查詢中的關(guān)鍵詞的權(quán)重。
用戶群Agent的查詢擴展,用戶個人Agent記錄用戶資源列表,在用戶聚類基礎(chǔ)上查詢,查詢資源聚類形成類資源,將類名表給用戶反饋過濾得到相關(guān)類名表,查詢Agent根據(jù)相關(guān)類名表,更新查詢特征向量,進行擴展查詢,查看點擊興趣Agent的資源列表。
2.4 過濾Agent
用戶模型和過濾文本的匹配包括2方面:用戶個人Agent過濾和用戶群Agent過濾。用戶個人Agent使用關(guān)鍵詞匹配法,使用tf—idf計算權(quán)重值,然后用余弦公式計算內(nèi)容相關(guān)度。根據(jù)需要設(shè)定閥值ε,當(dāng)文檔d和主題q之間相似度大于ε時,說明內(nèi)容符合主題,是用戶需要的文檔。
用戶群Agent過濾采用基于用戶一項目評價矩陣的表示法。用一個Rmxn矩陣來表示用戶模型。其中m為系統(tǒng)用戶數(shù);n為項目數(shù)。矩陣中的每個元素rij表示了用戶i對項目j的評價,一般是某個實數(shù)范圍內(nèi)的整數(shù)值。通常值越大,表示用戶對相應(yīng)項目的偏好程度越高??赵刂当硎居脩魶]有對相應(yīng)的項目做出評價。采用這種表示方法的系統(tǒng)多是基于協(xié)同過濾的推薦系統(tǒng)。這種表示方法簡單、直觀,不需要任何學(xué)習(xí)技術(shù)就能夠從收集的原始數(shù)據(jù)(顯性的用戶評價數(shù)據(jù))中直接生成。
2.5 推薦Agent
推薦Agent主要負(fù)責(zé)推薦關(guān)聯(lián)文檔,并更新用戶群Agent模型。查詢一個n維特征向量{(t1,w1),(t2,w2),…,(tn,wn)),文檔模型為一個n維特征向量:di={<t1,w1i>,<t2,w2i>…<tj,wji>…<tn,wni>),推薦模型中個人模型為M={d1,d2,…,dm),則推薦模型中關(guān)鍵詞在推薦群中單個用戶的權(quán)值為:
其中,Hti表示關(guān)于ti個體推薦文檔被點擊的次數(shù);∑Hti表示關(guān)于ti個體推薦文檔被點擊的次數(shù)。
個體的推薦度為:
R=*A (4)
根據(jù)權(quán)值推薦匯集集合排序,并將和用戶有較高相關(guān)度的前N個文檔呈現(xiàn)給用戶。
3 系統(tǒng)功能流程分析
該系統(tǒng)的個性化信息搜索分為個性化過濾是通過建立用戶個人Agent進行過濾,而協(xié)作式推薦通過建立用戶群Agent進行推薦。
個性化過濾過程個性化過濾流程如圖2所示,首先通信Agent將反饋信息發(fā)送給用戶監(jiān)控Agent,用戶監(jiān)控Agent抽取反饋信息中的行為信息,然后結(jié)合用戶注冊Agent的基本信息和用戶監(jiān)控Agent的顯性信息,用戶個人Agent用向量空間模型法提取特征建立模型,最后過濾Agent用關(guān)鍵詞匹配方法將個人特征向量和搜索文檔進行匹配過濾得到個性化查詢結(jié)果。
協(xié)作式推薦過程協(xié)作式推薦流程如圖2所示,首先在用戶聚類的基礎(chǔ)上,查詢特征向量發(fā)布到類中各個成員、各個成員查詢資源列表;將查詢資源匯集,然后聚類資源,形成類資源;將類名表發(fā)送給用戶,反饋相關(guān)類名;最后在類資源中提取相關(guān)類資源,經(jīng)過推薦過濾,形成查看資源。過程如圖3所示:
4 模型特點
(1)該模型采用多智能體技術(shù),使得各個部分自主學(xué)習(xí)、相互協(xié)調(diào);使得個性化信息檢索中的數(shù)據(jù)收集,模型表示、模型的學(xué)習(xí)和模型的更新中功能能夠由其中多個Agent更好地協(xié)調(diào)補充完成,使各個過程具有智能化特點。
(2)充分挖掘用戶的信息需求,用戶注冊Agent主要負(fù)責(zé)顯性信息的獲得處理,記錄用戶的基本信息和用戶資源列表、用戶直接參與、簡單直接。用戶監(jiān)控Agent主要負(fù)責(zé)隱性信息獲得處理,記錄用戶的動態(tài)信息,在不影響用戶活動的前提下動態(tài)實時獲得最新信息。
(3)采用C/S框架結(jié)構(gòu),通信模塊介于之間,負(fù)責(zé)信息交互,個人用戶建模在客戶端代理執(zhí)行,可以保護用戶的隱私,用戶聚類與合作在服務(wù)器端代理實現(xiàn),可以在充分保護個人隱私的前提下,實現(xiàn)信息資源共享,提高Web信息的覆蓋率。
(4)建模技術(shù)的使用,一方面利用個人模型引導(dǎo)用戶提問,過濾檢索結(jié)果,使檢索更符合個性化要求;另一方面充分利用群用戶的信息,在合作的基礎(chǔ)上,得到和用戶請求相關(guān)的推薦結(jié)果,查詢擴展,實現(xiàn)資源共享。
5 結(jié) 語
該個性化信息檢索模型提出多智能體的框架結(jié)構(gòu),運用用戶建模和群建模技術(shù),使兩者相互結(jié)合,相互補充,既注重用戶的個性,過濾無關(guān)內(nèi)容,又發(fā)揮合作作用i共享相關(guān)內(nèi)容,實現(xiàn)了信息檢索的個性化、智能化。