專利名稱:一種用于Web服務(wù)推薦的個(gè)性化搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)軟件技術(shù)領(lǐng)域中網(wǎng)絡(luò)搜索、推薦,特別是一種用于Web服務(wù)推薦的個(gè)性化搜索方法。
背景技術(shù):
為了不斷滿足軟件系統(tǒng)的靈活性、可拓展性、正確性和魯棒性的需求,軟件工程的實(shí)踐逐步演化出一些方法,使得軟件系統(tǒng)的構(gòu)建可以基于已有的軟件資源,而非一切從頭開(kāi)發(fā)。這些方法成功地加快了軟件系統(tǒng)的開(kāi)發(fā)速度,提高了生產(chǎn)效率。在方法的技術(shù)層面,將軟件所實(shí)現(xiàn)的功能分解為一些相對(duì)簡(jiǎn)單的可復(fù)用功能模塊,也為軟件工程提供了一種更好的軟件管理技術(shù)。當(dāng)前,被廣泛接受的軟件復(fù)用技術(shù)是基于組件的軟件工程(Components-BasedSoftware Engineering, CBSE)。面向服務(wù)的計(jì)算(Service Orient ed Computing, SOC)是一種新的基于組件的軟件開(kāi)發(fā)范式;S0C的基礎(chǔ)設(shè)施是面向服務(wù)的體系架構(gòu)(ServiceOriented Architecture, SOA) ;ffeb 服務(wù)和 SOA 是 SOC 的一種實(shí)現(xiàn)版本。作為一種新興的、面向Internet的分布式計(jì)算模式,SOC為構(gòu)造松耦合、跨組織的集成應(yīng)用提供了更好的使能技術(shù)。面向服務(wù)架構(gòu)通過(guò)“發(fā)布-查找-綁定”的模式為使用服務(wù)資源提供了基本保障。然而,服務(wù)使用者與服務(wù)提供者相分離,增加了用戶理解、得到及使用所需服務(wù)的難度。特別是當(dāng)用戶的需求隨著應(yīng)用構(gòu)造過(guò)程的演進(jìn)而變化時(shí),如何讓用戶得到合適的服務(wù)是一個(gè)需要解決的問(wèn)題。針對(duì)該問(wèn)題,傳統(tǒng)服務(wù)發(fā)現(xiàn)技術(shù)主要通過(guò)用戶主動(dòng)提供查詢請(qǐng)求的方式獲取用戶的服務(wù)需求,或者直接讓用戶自己在資源集合中按照一定的分類體系手動(dòng)的查找。當(dāng)資源集合不斷膨脹,手動(dòng)查找服務(wù)的操作將變得繁瑣、費(fèi)時(shí)、易錯(cuò)。目前,Web服務(wù)搜索技術(shù)包括基于UDDI注冊(cè)中心、通過(guò)Web服務(wù)網(wǎng)站(如XMethods、RemoteMethods等)、使用通用搜索引擎(如Google、Yahoo等)以及使用專業(yè)搜索引擎(如seekda、Merobase等)四種方式。這些搜索方式主要支持關(guān)鍵字檢索方式,檢索過(guò)程中并無(wú)用戶參與,因而檢索結(jié)果與用戶興趣無(wú)關(guān),更不能隨用戶興趣的變化而變化。與傳統(tǒng)搜索技術(shù)的思路不同,個(gè)性化搜索技術(shù)能夠?qū)λ阉鹘Y(jié)果中的服務(wù)頁(yè)面進(jìn)行分析并與用戶的興趣進(jìn)行比較,幫助用戶從中找出更為感興趣的服務(wù)并將之優(yōu)先呈現(xiàn)在搜索結(jié)果列表中,從而提高用戶的搜索效率。如在Google個(gè)性化搜索中,系統(tǒng)允許用戶定制自己喜歡的界面風(fēng)格(包括信息過(guò)濾的級(jí)別,語(yǔ)言選擇以及查詢建議定制等),Google個(gè)性化的Subscribed Links允許用戶在自己的Google搜索引擎中創(chuàng)建自定義結(jié)果,為客戶展現(xiàn)業(yè)務(wù)鏈接。Yahoo !推出的個(gè)性化搜索允許用戶根據(jù)自己的行為方式搜索興趣信息,并支持用戶針對(duì)檢索結(jié)果的管理和共享。用戶可以添加注釋,可以根據(jù)個(gè)體需要對(duì)Web網(wǎng)頁(yè)進(jìn)行分類和排序等。個(gè)性化推薦技術(shù)深度挖掘用戶的個(gè)性化偏好,采取主動(dòng)式的信息“推送”方式,自動(dòng)化地提供滿足個(gè)性化需求的信息給用戶,而不是需要用戶自己從海量的Web信息中尋找自己感興趣的內(nèi)容,從而提高用戶有效信息獲取的效率。1992年,第一個(gè)推薦系統(tǒng)Tapestry誕生,它用于電子郵件的協(xié)作過(guò)濾并獲得了不錯(cuò)的效果。此后,推薦系統(tǒng)以其廣闊的應(yīng)用價(jià)值,獲得了越來(lái)越多的關(guān)注。1996年,Yahoo將推薦系統(tǒng)引入門(mén)戶網(wǎng)站,添加個(gè)性化用戶入口 MyYahoo,針對(duì)不同用戶提出了個(gè)性化的服務(wù);1997年,AT&T實(shí)驗(yàn)室提出了基于協(xié)同過(guò)濾的個(gè)性化推薦系統(tǒng)Referral Web和PHOAKS ;2001年,IBM公司在其電子商務(wù)平臺(tái)Websphere中增加了個(gè)性化推薦系統(tǒng),以便商家開(kāi)發(fā)個(gè)性化電子商務(wù)網(wǎng)站;類似的產(chǎn)品還有GroupLens、Amazon、Netf Iix等,應(yīng)用領(lǐng)域涉及電子郵件過(guò)濾、電子商務(wù)類網(wǎng)站、新聞主題類網(wǎng)站、搜索引擎、在線DVD租賃網(wǎng)站以及一些web2. O社會(huì)化網(wǎng)站等。個(gè)性化搜索大量使用的是個(gè)性化推薦中的基本原理,而個(gè)性化推薦也需要大量借鑒個(gè)性化搜索中的基本技術(shù),兩者作為個(gè)性化服務(wù)中緊密關(guān)聯(lián)而又最為核心的兩項(xiàng)技術(shù),能夠極大程度上地滿足不同用戶的差異化信息需求,具有廣泛的應(yīng)用前景。搜索引擎作為有效的信息檢索的工具,能夠幫助用戶高效、快捷地從海量Web資源中獲取到自己需要的內(nèi)容,從而極大地提高用戶獲取信息的效率。隨著Web服務(wù)資源的不斷豐富和搜索引擎技術(shù)的進(jìn)一步發(fā)展,在用戶實(shí)際需求的驅(qū)動(dòng)下,個(gè)性化 搜索方法逐漸成為搜索領(lǐng)域研究的熱點(diǎn)。針對(duì)Web服務(wù)的個(gè)性化搜索方法,其核心是根據(jù)用戶的個(gè)性化的興趣、偏好,對(duì)服務(wù)檢索結(jié)果進(jìn)行“因人而異”的篩選和排序,從而為不同用戶提供滿足其個(gè)性化需求的差異化的檢索結(jié)果輸出。然而,如何在Web網(wǎng)絡(luò)資源中找到一種較為客觀準(zhǔn)確的搜索方法,精確地實(shí)施服務(wù)推送,滿足不同使用主體的需要,是一個(gè)難點(diǎn)。
發(fā)明內(nèi)容
發(fā)明目的本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)中搜索不精確時(shí)間長(zhǎng)的缺陷,提供一種用于Web服務(wù)推薦的個(gè)性化搜索方法。為了解決上述技術(shù)問(wèn)題,本發(fā)明公開(kāi)了一種用于Web服務(wù)推薦的個(gè)性化搜索方法,包括以下步驟步驟I,預(yù)處理 Web 服務(wù)描述語(yǔ)言 WSDL (Web Service Description Language,Web服務(wù)描述語(yǔ)言)文檔,從用戶使用記錄中獲取其選擇過(guò)的WSDL文檔,通過(guò)去除停用詞和提取詞干兩個(gè)預(yù)處理步驟,形成詞袋(bag ofwords);步驟2,抽取用戶興趣,使用改進(jìn)的TF-IDF公式計(jì)算詞袋中的每一個(gè)詞的權(quán)重,并乘以時(shí)間衰減因子,得到新的權(quán)重S ;選擇新的權(quán)重S 由大至小前k個(gè)詞作為用戶的興趣詞,以及每個(gè)詞的對(duì)應(yīng)權(quán)重Su,組成k維的用戶興趣向量;選擇前k優(yōu)的權(quán)值,并相應(yīng)的詞一起構(gòu)成用戶興趣向量。此舉有利于減小用戶興趣向量空間的維度并使其維度一致,有利于高效地計(jì)算每?jī)蓚€(gè)用戶之間的興趣相似度。步驟3,計(jì)算相似度,使用向量夾角余弦公式計(jì)算每?jī)蓚€(gè)用戶之間的余弦距離作為其相似度;設(shè)定相似度閾值,超過(guò)閾值的用戶入選為目標(biāo)用戶的鄰居用戶;相似度閾值的設(shè)定范圍是(Tl。步驟4,排序服務(wù)檢索結(jié)果目標(biāo)用戶提交服務(wù)請(qǐng)求,由Web服務(wù)搜索引擎檢索出所有符合請(qǐng)求的服務(wù);根據(jù)鄰居用戶選擇這些服務(wù)的次數(shù)及其與目標(biāo)用戶的相似度,采用加權(quán)平均預(yù)測(cè)公式計(jì)算每個(gè)檢索結(jié)果的推薦預(yù)測(cè)值;將檢索結(jié)果按照推薦預(yù)測(cè)值降序排列,從而得到個(gè)性化搜索結(jié)果。
本發(fā)明中,改進(jìn)的TF-IDF (Term Frequency-Inverse Document Frequency,文檔-反文檔頻率)公式如下
權(quán)利要求
1.一種用于Web服務(wù)推薦的個(gè)性化捜索方法,其特征在于,包括以下步驟 步驟1,預(yù)處理Web服務(wù)描述語(yǔ)言WSDL文檔從用戶使用記錄中獲取其選擇過(guò)的WSDL文檔,通過(guò)去除停用詞和提取詞干兩個(gè)預(yù)處理步驟,形成詞袋; 步驟2,抽取用戶興趣計(jì)算詞袋中的每ー個(gè)詞的權(quán)重,并乘以時(shí)間衰減因子,得到新的權(quán)重S ,j ;選擇新的權(quán)重8 由大至小前k個(gè)詞作為用戶的興趣詞,以及每個(gè)詞的對(duì)應(yīng)權(quán)重Su,組成k維的用戶興趣向量; 步驟3,計(jì)算興趣相似度計(jì)算每?jī)蓚€(gè)用戶興趣向量之間的余弦距離作為其興趣相似度;設(shè)定相似度閾值,超過(guò)閾值的用戶入選為目標(biāo)用戶的鄰居用戶; 步驟4,排序服務(wù)檢索結(jié)果目標(biāo)用戶提交服務(wù)請(qǐng)求,由Web服務(wù)搜索引擎檢索出所有符合請(qǐng)求的服務(wù);根據(jù)鄰居用戶選擇這些服務(wù)的次數(shù)及其與目標(biāo)用戶的相似度,采用加權(quán)平均預(yù)測(cè)公式計(jì)算每個(gè)檢索結(jié)果的推薦預(yù)測(cè)值;將檢索結(jié)果按照推薦預(yù)測(cè)值降序排列,從而得到個(gè)性化捜索結(jié)果。
2.根據(jù)權(quán)利要求I所述的ー種用于Web服務(wù)推薦的個(gè)性化捜索方法,其特征在干,步驟2中,計(jì)算詞袋中的每ー個(gè)詞的權(quán)重,并乘以該詞的時(shí)間衰減因子,得到新的權(quán)重Sij包括如下步驟 使用改進(jìn)的TF-IDF公式計(jì)算權(quán)重Wij
3.根據(jù)權(quán)利要求I所述的ー種用于Web服務(wù)推薦的個(gè)性化捜索方法,其特征在于,步驟3中采用如下方法計(jì)算用戶興趣相似度
4.根據(jù)權(quán)利要求I所述的ー種用于Web服務(wù)推薦的個(gè)性化捜索方法,其特征在于,步驟4中,采用加權(quán)平均預(yù)測(cè)公式計(jì)算每個(gè)檢索結(jié)果的推薦預(yù)測(cè)值的公式如下
全文摘要
本發(fā)明公開(kāi)了一種用于Web服務(wù)推薦的個(gè)性化搜索方法,包括以下步驟步驟1,預(yù)處理WSDL文檔通過(guò)去除停用詞和提取詞干兩個(gè)預(yù)處理步驟,形成詞袋;步驟2,抽取用戶興趣使用改進(jìn)的TF-IDF公式計(jì)算詞袋中的每一個(gè)詞的權(quán)重,并乘以該詞的時(shí)間衰減因子,得到新的權(quán)重;選擇權(quán)重由大至小前k個(gè)詞作為用戶的興趣詞,以及每個(gè)詞的對(duì)應(yīng)權(quán)重,組成k維的用戶興趣向量;步驟3,計(jì)算興趣相似度設(shè)定相似度閾值,超過(guò)閾值的用戶入選為目標(biāo)用戶的鄰居用戶;步驟4,排序服務(wù)檢索結(jié)果,根據(jù)鄰居用戶的相似度及其選擇服務(wù)的次數(shù)計(jì)算服務(wù)的推薦預(yù)測(cè)值,并將檢索結(jié)果按照推薦預(yù)測(cè)值降序排列,從而得到個(gè)性化搜索結(jié)果。
文檔編號(hào)G06F17/30GK102819575SQ20121025388
公開(kāi)日2012年12月12日 申請(qǐng)日期2012年7月20日 優(yōu)先權(quán)日2012年7月20日
發(fā)明者竇萬(wàn)春, 胡蓉 申請(qǐng)人:南京大學(xué)