專利名稱:播存網(wǎng)格環(huán)境下客戶端資源檢索及自動下載方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能IT技術(shù)領(lǐng)域,具體涉及一種播存網(wǎng)格環(huán)境下基于內(nèi)容語義的客戶端資源檢索以及自動下載的方法。
背景技術(shù):
互聯(lián)網(wǎng)飛速發(fā)展,網(wǎng)絡(luò)上的資源越來越多,現(xiàn)狀是“資源過?!?,而同時由于海量信息,用戶無法獲得自己最需要的信息,這就需要在信源與信宿之間架起溝通網(wǎng)頁語義的橋梁。而這種語義學(xué)意義上篩選內(nèi)容的科學(xué)技術(shù)手段,成了網(wǎng)絡(luò)傳媒持續(xù)發(fā)展的新瓶頸。
進一步把互聯(lián)網(wǎng)改造成語義網(wǎng),讓基于內(nèi)容語義的用戶搜索成為現(xiàn)實,其應(yīng)用范圍將大大超出網(wǎng)絡(luò)傳媒,幾乎是無所不能的內(nèi)容語義的主動服務(wù)。同時結(jié)合用戶的搜索習(xí)慣以及節(jié)目偏好,個性,瀏覽方式,實現(xiàn)節(jié)目的自動下載,彰顯網(wǎng)絡(luò)的人性化,為用戶省去了網(wǎng)上尋找的時間。同時,在組播環(huán)境下,可以有效解決了服務(wù)器端網(wǎng)絡(luò)擁堵的現(xiàn)狀,實現(xiàn)了“信息快速通道”。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種在播存網(wǎng)格環(huán)境下基于內(nèi)容語義的客戶端資源檢索以及自動下載的方法。
本發(fā)明提出的方法基于“播存網(wǎng)格”的組播環(huán)境,運用“組播”網(wǎng)絡(luò)通信模式。
由于80/20規(guī)則,傳統(tǒng)的網(wǎng)絡(luò)存在著嚴(yán)重的訪問量以及信息不對稱的問題。80%的用戶只訪問20%的網(wǎng)站(實際的網(wǎng)絡(luò)情況更加懸殊),即極少數(shù)的網(wǎng)站承擔(dān)著繁重的訪問任務(wù),于是出現(xiàn)了“共享沖突”問題,并且隨著網(wǎng)絡(luò)用戶數(shù)的急劇增長而日益嚴(yán)重。采用組播技術(shù),即在服務(wù)器端,每一個播組具有實時數(shù)據(jù)傳輸能力,每天播出幾百兆的內(nèi)容,直接到用戶,沒有擁堵,無需帶寬等待分配,客戶端選擇自己所需要加入的播組,無縫的進行連接,隨心所欲的接收節(jié)目。
在此組播環(huán)境下,本發(fā)明包含下述2個方面的內(nèi)容1、客戶端進行三層語義檢索匹配;2、用戶個性化資源自動下載。
1.客戶端進行三層語義檢索匹配服務(wù)器端對將要播出的節(jié)目進行清洗,抽取出節(jié)目的關(guān)鍵信息,以XML文件的形式保存每個節(jié)目的“內(nèi)容語義”,而客戶端通過語義分析,選出自己所感興趣的節(jié)目進行接收。
在客戶端基于內(nèi)容語義搜索進行組播節(jié)目下載時,采用了三層語義匹配的方式第一層節(jié)目關(guān)鍵信息匹配。
服務(wù)器端對每個節(jié)目高度清洗,簡要的分析出每一個將要組播節(jié)目的關(guān)鍵信息,隨節(jié)目單一起播出,用戶接收到組播節(jié)目單,根據(jù)該節(jié)目內(nèi)容語義信息中的關(guān)鍵信息(如關(guān)鍵字),進行模糊匹配(包含近義詞匹配,中英文匹配等),由于用戶的檢索習(xí)慣以及檢索關(guān)鍵信息準(zhǔn)確度不同,語義匹配的過程中簡單運用分詞技術(shù),對于中文用戶,理解更準(zhǔn)確,搜索效率更高。
第二層節(jié)目分類匹配根據(jù)每個節(jié)目的分類信息進行語義匹配,每個節(jié)目的分類方式可以參照中國圖書館分類簡表,結(jié)合現(xiàn)在網(wǎng)絡(luò)上各網(wǎng)站的目錄分類格式,在分類信息的精確度以及簡易度之間達到動態(tài)平衡,同時建立分類樹。
分類樹上的各個節(jié)點存在相互關(guān)聯(lián)相互依存的聯(lián)系。各節(jié)點兩兩之間的關(guān)聯(lián)系數(shù)可以用一個2維的“關(guān)聯(lián)矩陣”來描述。即為每一個節(jié)點賦一個全局唯一的ID,用一個2維的矩陣來表示每兩個節(jié)點的關(guān)聯(lián)程度。可以想象這是一個非常龐大的矩陣,但其中大部分的值為0。
客戶端系統(tǒng)根據(jù)用戶的請求,在分類樹上進行語義匹配,找到匹配度最高的一個或幾個節(jié)點。同時注意,在進行語義匹配時,第一步先進行分類內(nèi)容的查詢匹配,即進行匹配或者模糊匹配,定位到分類樹上的節(jié)點。第二步通過“關(guān)聯(lián)矩陣”,將與第一步找到的節(jié)點有一定關(guān)聯(lián)程度(可通過某一閥值來控制)的節(jié)點也找出來。分別加以權(quán)重,通過各個分類樹結(jié)點位置以及其相互的關(guān)聯(lián)程度,可得到本次用戶請求的各節(jié)目“匹配度”。
第三層語義摘要信息匹配作為對本節(jié)目分類和關(guān)鍵信息的補充,每個節(jié)目的一個XML文件還含有摘要信息。對摘要信息進行語義匹配的方法,類似于全文檢索,由于在組播環(huán)境中,所有節(jié)目檢索都是在本地進行,若是對節(jié)目的所有內(nèi)容進行檢索,顯然不合適。所以采用對節(jié)目的摘要信息進行匹配的方式。建立一張倒排表,將節(jié)目的摘要信息內(nèi)容經(jīng)過分詞,切詞,分別放入倒排表,根據(jù)倒排表所統(tǒng)計出的結(jié)果,判斷該節(jié)目是否到達用戶搜索需求的閥值(動態(tài)更新中),若是匹配度低于該閥值,則該節(jié)目不予考慮(在關(guān)鍵信息匹配,分類匹配都失敗的前提下)。在摘要信息匹配上,可以結(jié)合一些比較成熟的算法,如LR,NNet(Neural network),Knn(K-nearest neighbor),SVM。
客戶端通過三層語義檢索匹配,對發(fā)送到客戶端的節(jié)目描述信息(XML文件形式)進行本地的語義匹配,對相似相近的表述,客戶端搜索引擎能夠辨別,并根據(jù)相似耦合度以及其關(guān)聯(lián)程度,對每一層的搜索都給出其權(quán)重;對于中文搜索技術(shù),運用分詞切詞技術(shù),體現(xiàn)對客戶的人性化檢索服務(wù)。同時,對三層語義匹配單元,其在搜索結(jié)果中所占的權(quán)重不同,這是一個動態(tài)的參數(shù),并非線性,根據(jù)動態(tài)算法給出三維“匹配度矩陣”,每次結(jié)合三層語義匹配度,從矩陣中取出三層分別所占的權(quán)重,得到最終每個節(jié)目對于用戶的搜索匹配度,并按降序排列,顯示給用戶;同時,設(shè)置一個閥值,低于該匹配度值的節(jié)目將不顯示給用戶,該閥值可以由用戶配置。系統(tǒng)也可以根據(jù)用戶的以往搜索結(jié)果的節(jié)目下載情況的統(tǒng)計數(shù)據(jù),經(jīng)過算法得到一個閥值,為用戶所參考。限制節(jié)目選擇范圍,提供符合用戶喜好耦合度高的節(jié)目,從而一方面體現(xiàn)用戶服務(wù)人性化,節(jié)省用戶瀏覽時間,另一方面,節(jié)約客戶端開銷,達到效率最高。
即M=K*k%+C*c%+A*a%(>T)這里M代表對于用戶某一特定需求而言,某一文件的整體匹配程度(match)。K代表該文件的關(guān)鍵詞匹配程度(keyword match),k%代表關(guān)鍵詞匹配在整體匹配度中所占的比重;C代表分類的匹配程度(category match),c%代表分類匹配在整體匹配度中所占的比重;A代表摘要信息的匹配程度(abstract match),a%代表摘要匹配在整體匹配度中所占的比重。這里T是所設(shè)置的閥值,那些匹配度很低(比如<60%)的就直接丟棄,不作為一個匹配查找出來的文件供用戶選擇。客戶端進行語義匹配,分類樹模塊和動態(tài)匹配矩陣模塊,由服務(wù)中心和客戶端之間特定播組來傳輸,保證同步。
本方法采取了組播的網(wǎng)絡(luò)傳輸格式,所有的搜索工作在客戶端本地完成。
2.用戶個性化資源自動下載特定用戶的喜好總是有一定的連續(xù)性,每次有新的節(jié)目出現(xiàn),原本用戶需要重新輸入用戶的搜索信息,進行節(jié)目的選擇,這對用戶來說是重復(fù)操作。客戶端,一方面提供用戶個人喜好存儲表格,另一方面,系統(tǒng)通過記錄用戶長期觀看節(jié)目的習(xí)慣,總結(jié)出用戶各類節(jié)目的喜好度,然后主動代理用戶對喜好度高的節(jié)目(比較喜歡的節(jié)目)實施節(jié)目的預(yù)定和下載。使用戶不必再去尋找自己喜歡的節(jié)目,而是讓用戶喜歡的節(jié)目自動找上用戶。
用戶對節(jié)目喜好度的確定方式如下系統(tǒng)記錄用戶每次輸入的搜索信息,根據(jù)語義匹配得出的每次格式化的節(jié)目檢索結(jié)果(XML文件格式),同時配合用戶所設(shè)置或系統(tǒng)計算出的的匹配度閥值,得出用戶對哪一分類的節(jié)目、哪些關(guān)鍵信息的節(jié)目感興趣。系統(tǒng)同時記錄用戶對已下載節(jié)目的操作、瀏覽頻率、保留時間等,若確實是用戶的喜好所在,則此類節(jié)目將享有較高的“用戶偏愛度”。若是用戶下載后立即刪除或是訪問頻率很低,則用戶對該節(jié)目的實際興趣不高。即在用戶的搜索匹配度以及節(jié)目實際觀看率上,系統(tǒng)加權(quán)之后為每個類別節(jié)目分配一個“用戶喜好度”,這個值由系統(tǒng)根據(jù)用戶行為的檢測結(jié)果確定,不斷處于動態(tài)過程之中。
同時,客戶端將用戶行為的統(tǒng)計信息定期的回傳給服務(wù)器端。服務(wù)器接收到來自各個用戶的喜好,習(xí)慣統(tǒng)計,在服務(wù)器端,根據(jù)統(tǒng)計模型進行分析,適當(dāng)?shù)恼{(diào)整“分類樹”的結(jié)構(gòu),某些類別若是大多數(shù)用戶都不感興趣,則放低該分類在分類樹中的位置,使之更接近于頁節(jié)點;對那些大多數(shù)用戶都十分感興趣的內(nèi)容,適當(dāng)提高其在分類樹中的位置,使之向根節(jié)點移動。此外,對于那些實事,熱門影片等節(jié)目,可以適當(dāng)調(diào)整其關(guān)鍵字或類別,例如“近期熱點”,以突出該節(jié)目的受歡迎程度,同時這些節(jié)目由于時效性需要及時更新;同樣,一些經(jīng)久不衰的經(jīng)典之作可以獨辟一個類別或冠以關(guān)鍵字“經(jīng)典”“寶典”之類。這些反饋也給服務(wù)器端的節(jié)目播出提供了依據(jù),從而使節(jié)目播出更有效,達到更好的“收視率”。
這樣,在用戶接收到節(jié)目單時,即可有的放矢尋找當(dāng)前最熱門的以及為大家所公認(rèn)的節(jié)目。有效的幫助了用戶在海量的信息中,尋找最有價值的節(jié)目,得到最大的信息量。
圖1為原始分類樹的結(jié)構(gòu)。
圖2為經(jīng)過用戶喜好反饋之后的分類樹的結(jié)構(gòu)。
具體實施例方式
結(jié)合一個具體的客戶端實施例來進一步說明上述方法的實際操作過程。
在播存網(wǎng)格系統(tǒng)下,客戶端首先下載特定頻道上的節(jié)目單以及服務(wù)中心的語義分類樹等必要文件。
1、用戶首先查看節(jié)目單(此時節(jié)目單的分類按照原始分類樹的結(jié)構(gòu)),選出自己感興趣的節(jié)目。此時用戶可以直接選擇自己喜歡的節(jié)目,或者輸入所感興趣的內(nèi)容,通過三層語義檢索匹配。
2、用戶首先輸入自己感興趣的資源信息,比如“足球”,“計算機課程”,“十運會”,“熱門”等。此時,客戶端系統(tǒng)對資源節(jié)目單上的所有資源進行“三層語義檢索匹配”。首先進行關(guān)鍵信息的匹配檢索,得出其匹配度在某一閥值上的資源節(jié)目單元。其次,進行分類匹配檢索。在分類樹上模糊匹配用戶所輸入的感興趣的內(nèi)容。比如,在分類樹上找到“足球”的分支節(jié)點,那么凡資源節(jié)目單上分類屬于“足球”的那些資源是用戶所感興趣的,把那些挑選出來,列給用戶候選。同時,分類樹上,和“足球”節(jié)點耦合度比較高的那些節(jié)點,比如“英國足球隊”,“足球先生”類別所對應(yīng)的資源也很有可能是用戶比較關(guān)心的,那些資源也應(yīng)該賦予稍低的匹配度,作為搜索匹配結(jié)果提供給用戶選擇。系統(tǒng)還會進行語義摘要信息的匹配,找出相對應(yīng)的資源。將這些搜索返回結(jié)果的匹配度予以加權(quán),可以得到所有即將要組播(一定數(shù)量的滾動播出)資源對于用戶偏好的匹配度。排序后,用戶可以看到系統(tǒng)提供給用戶的符合要求的資源節(jié)目,用戶再進行選擇。
比如,用戶輸入了“賽事”,“田徑”,此時參照節(jié)目單上各個節(jié)目的關(guān)鍵詞,分類以及摘要信息,并且考慮到語義分類樹的結(jié)構(gòu)。根據(jù)M=K*k%+C*c%+A*a%(>T)可以發(fā)現(xiàn),算法如下節(jié)目單中,找到文件F1,其有一個關(guān)鍵詞為“田徑”;F2,其有一個關(guān)鍵詞為“田徑”;F3,其分別有一個關(guān)鍵詞為“田徑”,并且還有一個關(guān)鍵詞為“賽事”;則賦值K1=50%,K2=50%,K3=90%。
接著查看分類信息,通過圖1的分類圖可以看到,在田徑賽事下的那些文件是最符合用戶需求的,發(fā)現(xiàn)F1的分類為“田徑”,則賦值C1=60%;F2的分類為“田徑明星”則賦值C2=50%;F3的分類為“田徑賽事”,賦值C3=90%;同時發(fā)現(xiàn)有一個文件F4的分類為“體育”,此時可以看到體育類和田徑類有一定的關(guān)聯(lián),查看“關(guān)聯(lián)矩陣”,發(fā)現(xiàn)田徑和體育的關(guān)聯(lián)值為70%,則此時,賦值C4=60%*70%=42%,(此時采用了簡單的分類匹配度*分類關(guān)聯(lián)度的計算方法)。
最后進行摘要的匹配工作,將各文件的摘要內(nèi)容進行LR摘要匹配,得出對文件F1,其A1=60%;對文件F2,其A2=50%,對文件F3,其A3=80%,對文件F4,其A4=40%;又發(fā)現(xiàn)有文件F5,其A5=45%。其余文件的摘要匹配都小于40%,不予考慮。
最后進行統(tǒng)計,對本系統(tǒng),權(quán)值之間的分配k%=40%,c%=35%,a%=25%,同時根據(jù)該用戶本機系統(tǒng)所設(shè)置的閥值為40%,即匹配度<60%不顯示給用戶,直接丟棄。
根據(jù)M=K*k%+C*c%+A*a%(>T)計算M1=50%*40%+60%*35%+60%*25%=56% >40%(供用戶選擇)M2=50%*40%+50%*35%+50%*25%=50% >40%(供用戶選擇)M3=90%*40%+90%*35%+80%*25%=87.5%>40%(供用戶選擇)M4=0.00*40%+42%*35%+40%*25%=24.7%<40%(不為候選)M5=0.00*40%+0.00*35%+45%*25%=11.25% <40%(不為候選)由于此時的語義匹配是在客戶端完成的,語義樹等需要客戶端和服務(wù)中心同步,需要在下載資源節(jié)目單的時候,在特定頻道上同步更新下載。
3、同時,系統(tǒng)自動記錄用戶每次自己選擇要下載節(jié)目的關(guān)鍵信息,如該節(jié)目的關(guān)鍵詞、分類等,以及每次用戶輸入的感興趣的資源信息,以及系統(tǒng)每次返回結(jié)果和用戶的二次挑選,這些都是用戶偏好的關(guān)鍵信息。如果用戶連續(xù)幾天都有搜索“足球”的信息,那么我們比較確定這位用戶是一個足球愛好者,如果他每次都下載皇馬球隊的信息,那么我們認(rèn)為他很可能是皇馬的球迷。于是,在系統(tǒng)幾天的統(tǒng)計之后,系統(tǒng)“用戶喜好”保存中,就會自動為用戶加上足球,皇馬的關(guān)鍵信息,接著若是每次系統(tǒng)為該用戶搜索出來的足球,皇馬的資源,該用戶都有選擇下載,則說明足球皇馬的用戶喜好度比較高,則將動態(tài)的用戶喜好度,比如賦值為90。又過了幾天,發(fā)現(xiàn)用戶對足球、皇馬的資源節(jié)目不予以選擇下載,則喜好度動態(tài)的下降,比如降到60。若是又幾天,用戶仍不對此感興趣,喜好度繼續(xù)下降,下降到一定閥值,比如45,則系統(tǒng)不再為用戶自動搜索此類內(nèi)容。同時用戶也可以自己事先定義自己感興趣的內(nèi)容,讓系統(tǒng)每次都為用戶自動搜索。
4、由于客戶端將用戶行為的統(tǒng)計信息定期的回傳給服務(wù)器端,服務(wù)器端根據(jù)統(tǒng)計近期大家比較關(guān)心的事件人物等,適當(dāng)?shù)恼{(diào)整“分類樹”的結(jié)構(gòu),比如,本來“劉翔”放在“體育”->“田徑”->“田徑明星”->“劉翔”,現(xiàn)在服務(wù)器端及時調(diào)整,將“劉翔”放在“熱點人物”分類中,則客戶端搜索“近期熱點”,“焦點人物”等關(guān)鍵信息時,通過模糊匹配,即能找出當(dāng)前大家關(guān)心的“劉翔”的信息。(參見圖1,圖2)
權(quán)利要求
1.一種播存網(wǎng)格環(huán)境下客戶端資源檢索及自動下載方法,其特征在于基于播存網(wǎng)格的組播環(huán)境,運用組播網(wǎng)絡(luò)通信模式,具體步驟為(1)客戶端進行三層語義檢索匹配服務(wù)器端對將要播出的節(jié)目進行清洗,抽取出節(jié)目的關(guān)鍵信息,以XML文件的形式保存每個節(jié)目的內(nèi)容語義,而客戶端通過語義分析,選出自己所感興趣的節(jié)目進行接收;在客戶端基于內(nèi)容語義搜索進行組播節(jié)目下載時,采用了三層語義匹配的方式第一層節(jié)目關(guān)鍵信息匹配服務(wù)器端對每個節(jié)目清洗,簡要的分析出每一個將要組播節(jié)目的關(guān)鍵信息,隨節(jié)目單一起播出,用戶接收到組播節(jié)目單,根據(jù)該節(jié)目內(nèi)容語義信息中的關(guān)鍵信息,進行模糊匹配;第二層節(jié)目分類匹配根據(jù)每個節(jié)目的分類信息進行語義匹配,同時建立分類樹,分類樹上各節(jié)點兩兩之間的關(guān)聯(lián)系數(shù)用一個2維的關(guān)聯(lián)矩陣來描述;客戶端系統(tǒng)根據(jù)用戶的請求,在分類樹上進行語義匹配,第一步先進行分類內(nèi)容的查詢匹配,即進行匹配或者模糊匹配,定位到分類樹上的節(jié)點;第二步通過關(guān)聯(lián)矩陣,將與第一步找到的節(jié)點有一定關(guān)聯(lián)程度的節(jié)點也找出來,分別加以權(quán)重,通過各個分類樹結(jié)點位置以及其相互的關(guān)聯(lián)程度,得到本次用戶請求的各節(jié)目“匹配度”;第三層語義摘要信息匹配建立一張倒排表,將節(jié)目的摘要信息內(nèi)容經(jīng)過分詞,切詞,分別放入倒排表,根據(jù)倒排表所統(tǒng)計出的結(jié)果,判斷該節(jié)目是否到達用戶搜索需求的閥值,若是匹配度低于該閥值,則該節(jié)目不予考慮;(2)用個性化資源自動下載客戶端,一方面提供用戶個人喜好存儲表格,另一方面,系統(tǒng)通過記錄用戶長期觀看節(jié)目的習(xí)慣,總結(jié)出用戶各類節(jié)目的喜好度,然后主動代理用戶對喜好度高的節(jié)目實施節(jié)目的預(yù)定和下載。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述用戶對節(jié)目喜好度的確定方式如下系統(tǒng)記錄用戶每次輸入的搜索信息,根據(jù)語義匹配得出的每次格式化的節(jié)目檢索結(jié)果,同時配合用戶所設(shè)置或系統(tǒng)計算出的的匹配度閥值,得出用戶對哪一分類的節(jié)目、哪些關(guān)鍵信息的節(jié)目感興趣;系統(tǒng)同時記錄用戶對已下載節(jié)目的操作、瀏覽頻率、保留時間等,若確實是用戶的喜好所在,則此類節(jié)目將享有較高的“用戶偏愛度”;若是用戶下載后立即刪除或是訪問頻率很低,則用戶對該節(jié)目的實際興趣不高。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于客戶端將用戶行為的統(tǒng)計信息定期的回傳給服務(wù)器端;服務(wù)器接收到來自各個用戶的喜好,習(xí)慣統(tǒng)計,在服務(wù)器端,根據(jù)統(tǒng)計模型進行分析,適當(dāng)?shù)恼{(diào)整分類樹的結(jié)構(gòu),某些類別若是大多數(shù)用戶都不感興趣,則放低該分類在分類樹中的位置,使之更接近于頁節(jié)點;對那些大多數(shù)用戶都十分感興趣的內(nèi)容,適當(dāng)提高其在分類樹中的位置,使之向根節(jié)點移動。
全文摘要
本發(fā)明屬于智能IT技術(shù)領(lǐng)域,具體涉及一種在播存網(wǎng)格環(huán)境下,基于內(nèi)容語義的在客戶端進行資源檢索以及自動下載的方法,這種方法使信源與信宿之間架起溝通網(wǎng)頁語義的橋梁。其內(nèi)包括客戶端進行三層語義檢索匹配(節(jié)目關(guān)鍵信息匹配、節(jié)目分類匹配和語義摘要信息匹配)和用戶個性化資源的自動下載。本發(fā)明一方面提供應(yīng)用廣泛、功能強大的內(nèi)容語義的主動服務(wù),同時結(jié)合用戶的搜索習(xí)慣以及對節(jié)目的偏好,個性,瀏覽方式,實現(xiàn)節(jié)目的自動下載,實現(xiàn)網(wǎng)絡(luò)的人性化服務(wù),為用戶省去了網(wǎng)上尋找的時間。
文檔編號G06F17/30GK1852124SQ200610026690
公開日2006年10月25日 申請日期2006年5月18日 優(yōu)先權(quán)日2006年5月18日
發(fā)明者錢松榮, 張銘, 劉佳娜, 張林龍, 李晶, 呂毓瑋, 張紅杰, 肖開東, 翁睿, 李偉, 劉方明, 夏永明 申請人:復(fù)旦大學(xué)