專利名稱:一種基于用戶動機(jī)傾向性的標(biāo)簽推薦方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于Web信息資源處理及利用領(lǐng)域,具體涉及基于用戶動機(jī)傾向性為Web 信息資源推薦標(biāo)簽的方法和基于此方法的推薦系統(tǒng)。
背景技術(shù):
隨著hternet的日益發(fā)展,網(wǎng)絡(luò)信息資源正以人們難以想象的速度增長,Web2. 0 的出現(xiàn)使得這種增長勢頭更加迅猛。在*吐2.0中,互聯(lián)網(wǎng)體系由原來自上而下的、少數(shù)資源控制者集中控制、主導(dǎo)轉(zhuǎn)變?yōu)樽韵露系挠蓮V大用戶集體智慧和力量主導(dǎo)。用戶除了是網(wǎng)絡(luò)信息資源的瀏覽者之外,同時(shí)還是網(wǎng)絡(luò)信息資源的生產(chǎn)者。Web2. 0用戶創(chuàng)造內(nèi)容的這種特性雖然豐富了信息的來源,加速了信息的擴(kuò)散,但也同時(shí)引發(fā)了信息過載、搜尋負(fù)荷加重、信息品質(zhì)降低等問題。那么,用戶如何從容地組織和管理鋪天蓋地海量網(wǎng)絡(luò)信息資源以及如何快速地、低成本地、有效地獲取合適而又高質(zhì)量的信息就成為了擺在我們前面的不可逾越的重大研究課題。理想的網(wǎng)絡(luò)信息資源組織應(yīng)該以用戶為中心,充分利用新興技術(shù)和人們積累的經(jīng)驗(yàn),組織體系應(yīng)具備較高的實(shí)用性和易用性。在0環(huán)境下,社會標(biāo)簽系統(tǒng)作為網(wǎng)絡(luò)信息資源組織的一種非常有效的方法正發(fā)揮著重要的作用。作為組織方式,它與傳統(tǒng)的自頂向下的、剛性的受控層次分類體系不同,社會標(biāo)簽系統(tǒng)體系具有以下三個(gè)優(yōu)點(diǎn)(1)社會標(biāo)簽是網(wǎng)絡(luò)信息資源用戶對網(wǎng)絡(luò)資源標(biāo)注時(shí)產(chǎn)生的,相同的社會標(biāo)簽經(jīng)過匯集以后形成了新的分類,它是自底向上的;(2)社會標(biāo)簽不受控于專家,用戶可以自行使用任意詞進(jìn)行標(biāo)注,具有極高的靈活性、易用性和主觀認(rèn)知性,網(wǎng)絡(luò)資源可以“柔性”隸屬于多個(gè)大眾分類。在社會標(biāo)簽系統(tǒng)中,用戶可以從多個(gè)維度、多個(gè)層次對網(wǎng)絡(luò)資源進(jìn)行標(biāo)注。因此,它的結(jié)構(gòu)是非層次的。然而在具備眾多優(yōu)勢的同時(shí),標(biāo)簽方式同樣存在缺點(diǎn),主要表現(xiàn)于以下兩個(gè)方面 (1)大多數(shù)社會標(biāo)簽系統(tǒng)允許用戶自行輸入標(biāo)簽,這種運(yùn)作模式使用戶很容易控制標(biāo)注行為,但由于標(biāo)注的隨意性也造成了標(biāo)簽中存在較多噪音,錯(cuò)拼、歧義以及無實(shí)際意義的用戶自定義標(biāo)簽常常充斥其中,這對標(biāo)簽的實(shí)用性造成了不小障礙。為此,有些社會標(biāo)簽系統(tǒng)不得不專門為用戶給出一些指導(dǎo)原則。(2)數(shù)據(jù)稀疏問題,由于標(biāo)簽式瀏覽是一種新興的信息組織方式,還沒有得到十分廣泛的應(yīng)用,尤其在中文資源中,采用這種組織方式的網(wǎng)絡(luò)資源十分稀少,另一方面,用戶尚不習(xí)慣于為網(wǎng)絡(luò)資源添加大量的標(biāo)簽,從而使得網(wǎng)絡(luò)上現(xiàn)有的標(biāo)簽資源極為稀少。近年來,正是在這種實(shí)際需求下,標(biāo)簽推薦技術(shù)受到了學(xué)術(shù)界以及互聯(lián)網(wǎng)企業(yè)的廣泛關(guān)注。標(biāo)簽推薦就是通過考察、分析、挖掘網(wǎng)絡(luò)信息資源的內(nèi)容和用戶的標(biāo)注歷史、顯式或隱式的關(guān)系為待標(biāo)注網(wǎng)絡(luò)信息資源提供一系列高質(zhì)量的標(biāo)簽作為候選。推薦的目的主要是(1)簡化標(biāo)注程序,方便用戶使用,從而增加社會標(biāo)簽系統(tǒng)的可用性和粘性。( 提高標(biāo)簽的質(zhì)量,降低錯(cuò)拼、歧義等情況,提高標(biāo)簽在信息資源組織、檢索、利用和發(fā)現(xiàn)的作用。 (3)改變標(biāo)簽空間的結(jié)構(gòu),使得標(biāo)簽空間更快的穩(wěn)定和收斂,進(jìn)而涌現(xiàn)語義。
目前,國內(nèi)外針對各種網(wǎng)絡(luò)信息資源已經(jīng)有一些發(fā)展較為成熟的社會標(biāo)簽推薦系統(tǒng),這些系統(tǒng)都在信息資源組織、檢索、分享和發(fā)現(xiàn)等方面起到了非常重要的作用。這些系統(tǒng)包括對商品進(jìn)行標(biāo)簽推薦的Amazon,對網(wǎng)頁資源進(jìn)行標(biāo)簽推薦的Delicious,對圖片進(jìn)行標(biāo)簽推薦的Flickr、對學(xué)術(shù)論文進(jìn)行標(biāo)簽推薦的Bibsonomy、為圖書電影推薦標(biāo)簽的豆瓣網(wǎng)、為提供視頻分享推薦標(biāo)簽的土豆網(wǎng)等。業(yè)已存在的標(biāo)簽推薦系統(tǒng)主要采用電子商務(wù)系統(tǒng)中傳統(tǒng)的推薦商品的技術(shù),主要包括基于內(nèi)容的推薦技術(shù)、基于協(xié)同過濾的推薦技術(shù)、基于關(guān)聯(lián)規(guī)則的推薦技術(shù)和這些技術(shù)的混合技術(shù)。在推薦依據(jù)上,這些傳統(tǒng)推薦技術(shù)要么是基于資源本身的內(nèi)容進(jìn)行推薦,要么基于用戶標(biāo)注的歷史結(jié)果進(jìn)行推薦。在推薦算法上,大多數(shù)是采用數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)的算法。這些傳統(tǒng)的標(biāo)簽推薦技術(shù)在一定程度上解決了信息過載和信息資源的組織、分類、檢索的問題,但是在效果上還很不理想,尤其是不能推薦滿足用戶信息需求的標(biāo)簽。
發(fā)明內(nèi)容
為了滿足用戶的信息需求,從用戶使用社會標(biāo)簽系統(tǒng)的動機(jī)出發(fā),識別其信息目標(biāo),為其推薦更準(zhǔn)確的社會標(biāo)簽,本發(fā)明提供了一種基于用戶動機(jī)傾向性的推薦標(biāo)簽方法, 該方法能夠推薦給用戶一個(gè)符合用戶意圖的多個(gè)標(biāo)簽組成的列表。本發(fā)明同時(shí)還提供了基于該方法的標(biāo)簽推薦系統(tǒng)。本發(fā)明是采用如下技術(shù)方案實(shí)現(xiàn)的本發(fā)明提供了一種基于用戶動機(jī)傾向性的標(biāo)簽推薦方法,包括以下步驟(1)根據(jù)用戶三元組,計(jì)算用戶的動機(jī)傾向性、每個(gè)已標(biāo)注資源的動機(jī)傾向性和待標(biāo)注資源的動機(jī)傾向性;所述用戶三元組包括用戶的標(biāo)注歷史、已標(biāo)注資源及對應(yīng)的標(biāo)注和待標(biāo)注資源及對應(yīng)的標(biāo)注;(2)在已標(biāo)注資源中選擇與待標(biāo)注資源的動機(jī)傾向性相似的資源,將得到的資源稱為非用戶依賴相似資源;(3)在非用戶依賴相似資源中選擇與用戶的動機(jī)傾向性相似的資源,將得到的資源稱為標(biāo)簽推薦候選資源;(4)將標(biāo)簽推薦候選資源中的所有標(biāo)簽合并,得到合并標(biāo)簽集;(5)計(jì)算合并標(biāo)簽集中每個(gè)標(biāo)簽的推薦重要性;(6)按照每個(gè)標(biāo)簽的推薦重要性從大到小,進(jìn)行標(biāo)簽推薦。本發(fā)明還提供了一種基于用戶動機(jī)傾向性的標(biāo)簽推薦系統(tǒng),包括動機(jī)傾向性計(jì)算模塊、選擇非用戶依賴相似資源模塊、選擇標(biāo)簽推薦候選資源模塊、標(biāo)簽合并模塊、推薦重要性計(jì)算模塊和輸出模塊;動機(jī)傾向性計(jì)算模塊用于計(jì)算用戶的動機(jī)傾向性、每個(gè)已標(biāo)注資源的動機(jī)傾向性和待標(biāo)注資源的動機(jī)傾向性;選擇非用戶依賴相似資源模塊用于在已標(biāo)注資源中選擇與待標(biāo)注資源的動機(jī)傾向性相似的資源,得到非用戶依賴相似資源;選擇標(biāo)簽推薦候選資源模塊用于在非用戶依賴相似資源中選擇與用戶的動機(jī)傾向性相似的資源,得到標(biāo)簽推薦候選資源;標(biāo)簽合并模塊用于將標(biāo)簽推薦候選資源中的所有標(biāo)簽合并,得到合并標(biāo)簽集;
推薦重要性計(jì)算模塊用于計(jì)算合并標(biāo)簽集中每個(gè)標(biāo)簽的推薦重要性;輸出模塊用于按照每個(gè)標(biāo)簽的推薦重要性從大到小,進(jìn)行標(biāo)簽推薦?,F(xiàn)有社會標(biāo)簽系統(tǒng)中標(biāo)簽推薦方法的著眼點(diǎn)是資源本身的內(nèi)容或者標(biāo)簽的同現(xiàn)結(jié)構(gòu)等,而本發(fā)明所提出的方法直接從用戶相對穩(wěn)定的標(biāo)注動機(jī)傾向性出發(fā),通過獲得用戶的標(biāo)注動機(jī)傾向性,并根據(jù)該標(biāo)注動機(jī)傾向性進(jìn)行標(biāo)簽推薦,所推薦的標(biāo)簽更符合用戶的意圖,推薦的效果更好。本發(fā)明能夠識別用戶標(biāo)注網(wǎng)絡(luò)信息資源的動機(jī),這種動機(jī)的發(fā)現(xiàn)對設(shè)計(jì)標(biāo)簽推薦系統(tǒng)提供很好的設(shè)計(jì)參考,并能對標(biāo)簽空間中本體的學(xué)習(xí)產(chǎn)生指導(dǎo)作用, 更利于社會標(biāo)簽結(jié)構(gòu)的穩(wěn)定、社會標(biāo)簽的語義涌現(xiàn)。
圖1是基于用戶動機(jī)傾向性的標(biāo)簽推薦流程;圖2是本發(fā)明特殊標(biāo)簽使用率查詢示意圖;圖3是本發(fā)明描述動機(jī)傾向性用戶的標(biāo)簽云圖;圖4是本發(fā)明所述的標(biāo)簽推薦系統(tǒng)模塊圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)例對本發(fā)明作進(jìn)一步詳細(xì)的說明。本發(fā)明中所述的動機(jī)傾向性主要有兩類,即分類動機(jī)傾向和描述動機(jī)傾向,它們的特點(diǎn)如表1所示。表1分類動機(jī)傾向和描述動機(jī)傾向的特點(diǎn)
權(quán)利要求
1.一種基于用戶動機(jī)傾向性的標(biāo)簽推薦方法,包括以下步驟(1)根據(jù)用戶三元組,計(jì)算用戶的動機(jī)傾向性、每個(gè)已標(biāo)注資源的動機(jī)傾向性和待標(biāo)注資源的動機(jī)傾向性;所述用戶三元組包括用戶的標(biāo)注歷史、已標(biāo)注資源及對應(yīng)的標(biāo)注和待標(biāo)注資源及對應(yīng)的標(biāo)注;(2)在已標(biāo)注資源中選擇與待標(biāo)注資源的動機(jī)傾向性相似的資源,將得到的資源稱為非用戶依賴相似資源;(3)在非用戶依賴相似資源中選擇與用戶的動機(jī)傾向性相似的資源,將得到的資源稱為標(biāo)簽推薦候選資源;(4)將標(biāo)簽推薦候選資源中的所有標(biāo)簽合并,得到合并標(biāo)簽集;(5)計(jì)算合并標(biāo)簽集中每個(gè)標(biāo)簽的推薦重要性;(6)按照每個(gè)標(biāo)簽的推薦重要性從大到小,進(jìn)行標(biāo)簽推薦。
2.根據(jù)權(quán)利要求1所述的標(biāo)簽推薦方法,其特征在于,步驟(1)中用戶u的動機(jī)傾向性為 Mu = (TRRu, LFTUu, TRCEu, TSOFu, STRu),TRRu, LFTUu, TRCEu, TSOFu, STRu 為用戶 u 的動機(jī)傾向性的度量指標(biāo),各度量指標(biāo)按如下公式計(jì)算
3.根據(jù)權(quán)利要求1或2所述的標(biāo)簽推薦方法,其特征在于,步驟( 中采用如下方法得到非用戶依賴相似資源(3. 1)分別計(jì)算每一個(gè)已標(biāo)注資源的動機(jī)傾向性與待標(biāo)注資源的動機(jī)傾向性的相似度;(3.2)選擇相似度大于閥值α的已標(biāo)注資源,即得到非用戶依賴相似資源,其中0<α < 1。
4.根據(jù)權(quán)利要求1或2所述的標(biāo)簽推薦方法,其特征在于,步驟C3)中采用如下方法得到標(biāo)簽推薦候選資源(4. 1)計(jì)算非用戶依賴相似資源中每個(gè)資源的動機(jī)傾向性與用戶動機(jī)傾向性的相似度;(4.2)選擇相似度大于閥值β的非用戶依賴相似資源,即標(biāo)簽推薦候選資源,其中0<β < 1。
5.根據(jù)權(quán)利要求1或2所述的標(biāo)簽推薦方法,其特征在于,步驟(5)中采用如下方法計(jì)算合并標(biāo)簽集中每個(gè)標(biāo)簽的推薦重要性(5.1)計(jì)算待標(biāo)注資源?中的每個(gè)詞w在待標(biāo)注資源f中的內(nèi)容重要性 其中,”、為詞w在待標(biāo)注資源中出現(xiàn)的次 數(shù),為待標(biāo)注資源卩中所有詞的個(gè)數(shù),為所有標(biāo)簽推薦候選資源包含的全部詞的個(gè)數(shù),Rcad(W) ι為所有標(biāo)簽推薦候選資源中包含的詞W的資源的個(gè)數(shù); (5. 2)計(jì)算詞W與合并標(biāo)簽集中標(biāo)簽t之間的相關(guān)性S (w, t),
6.一種基于用戶動機(jī)傾向性的標(biāo)簽推薦系統(tǒng),包括動機(jī)傾向性計(jì)算模塊(100)、選擇非用戶依賴相似資源模塊000)、選擇標(biāo)簽推薦候選資源模塊(300)、標(biāo)簽合并模塊000)、 推薦重要性計(jì)算模塊(500)和輸出模塊(600);動機(jī)傾向性計(jì)算模塊(100)用于計(jì)算用戶的動機(jī)傾向性、每個(gè)已標(biāo)注資源的動機(jī)傾向性和待標(biāo)注資源的動機(jī)傾向性;選擇非用戶依賴相似資源模塊(200)用于在已標(biāo)注資源中選擇與待標(biāo)注資源的動機(jī)傾向性相似的資源,得到非用戶依賴相似資源;選擇標(biāo)簽推薦候選資源模塊(300)用于在非用戶依賴相似資源中選擇與用戶的動機(jī)傾向性相似的資源,得到標(biāo)簽推薦候選資源;標(biāo)簽合并模塊(400)用于將標(biāo)簽推薦候選資源中的所有標(biāo)簽合并,得到合并標(biāo)簽集; 推薦重要性計(jì)算模塊(500)用于計(jì)算合并標(biāo)簽集中每個(gè)標(biāo)簽的推薦重要性; 輸出模塊(600)用于按照每個(gè)標(biāo)簽的推薦重要性從大到小,進(jìn)行標(biāo)簽推薦。
全文摘要
本發(fā)明提供了一種基于用戶動機(jī)傾向性的標(biāo)簽推薦方法,該方法根據(jù)用戶三元組,計(jì)算用戶的動機(jī)傾向性、每個(gè)已標(biāo)注資源的動機(jī)傾向性和待標(biāo)注資源的動機(jī)傾向性;在已標(biāo)注資源中選擇與待標(biāo)注資源的動機(jī)傾向性相似的資源,得到非用戶依賴相似資源;在非用戶依賴相似資源中選擇與用戶的動機(jī)傾向性相似的資源,得到標(biāo)簽推薦候選資源;將標(biāo)簽推薦候選資源中的所有標(biāo)簽合并,得到合并標(biāo)簽集;計(jì)算合并標(biāo)簽集中每個(gè)標(biāo)簽的推薦重要性;最后按照每個(gè)標(biāo)簽的推薦重要性從大到小,進(jìn)行標(biāo)簽推薦。本發(fā)明能夠識別用戶標(biāo)注網(wǎng)絡(luò)信息資源的動機(jī),推薦給用戶一個(gè)符合用戶意圖的多個(gè)標(biāo)簽組成的列表。本發(fā)明同時(shí)還提供了基于該方法的標(biāo)簽推薦系統(tǒng)。
文檔編號G06F17/30GK102262653SQ20111015435
公開日2011年11月30日 申請日期2011年6月9日 優(yōu)先權(quán)日2011年6月9日
發(fā)明者文坤梅, 李玉華, 李瑞軒, 辜希武, 靳延安 申請人:華中科技大學(xué)