數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法
【專利摘要】本發(fā)明提供一種數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,首先,根據(jù)用戶活動日志文件,計算出兩個活動對象之間的相關(guān)值,并將活動對象之間相關(guān)值大于第一閾值的活動對象關(guān)系保存在活動相關(guān)性分析文件中;根據(jù)活動相關(guān)性分析文件中的對象關(guān)系構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖G;根據(jù)數(shù)據(jù)關(guān)聯(lián)圖構(gòu)造隱對象圖GS;當(dāng)隱對象所代表的數(shù)據(jù)對象集的相關(guān)值滿足限定的條件時,根據(jù)所述隱對象圖GS構(gòu)造一個新的隱對象圖Gs';輸出新隱對象圖Gs'中的每一個隱對象所代表的數(shù)據(jù)對象集合。本發(fā)明可以發(fā)現(xiàn)異質(zhì)異構(gòu)數(shù)據(jù)的關(guān)聯(lián),挖掘出異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)對象集合。
【專利說明】數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法。
【背景技術(shù)】
[0002]數(shù)據(jù)空間是與主體相關(guān)的數(shù)據(jù)及其關(guān)系的集合,關(guān)聯(lián)數(shù)據(jù)查詢是數(shù)據(jù)空間重要的查詢技術(shù),而數(shù)據(jù)空間中的數(shù)據(jù)可能來自多個不同的數(shù)據(jù)源,其格式可能多種多樣,因此,挖掘數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合是實現(xiàn)關(guān)聯(lián)數(shù)據(jù)查詢的重要基礎(chǔ)。
[0003]目前對數(shù)據(jù)空間的研究主要在個人數(shù)據(jù)空間(PSD),國外主要有Dittrich等人研發(fā)的iMeMex[3-5]和Xin Dong等人研發(fā)的SEMEX原型系統(tǒng),國內(nèi)主要有孟小峰等人研發(fā)的OrientSpace的個人數(shù)據(jù)空間。其中,Dittrich等用一個單一邏輯圖模型iDM表示內(nèi)部的無結(jié)構(gòu)數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),通過iMeMex的AJAX接口為用戶提供導(dǎo)航,查詢和搜索功能。提出用pay-as-you-go的信息集成思想,在搜索引擎中加入權(quán)重hint來豐富松散的數(shù)據(jù)源間的關(guān)聯(lián),定義了 iTrails的查詢模型和查詢策略,iTrails可執(zhí)行簡單的關(guān)鍵詞查詢和語義查詢。Xin Dong等提出了邏輯三元組Triples (object, attribute, value)來表示異構(gòu)數(shù)據(jù)和不同對象之間的關(guān)聯(lián)關(guān)系,并為數(shù)據(jù)空間中的異構(gòu)數(shù)據(jù)建立一個基于圖模型的全局數(shù)據(jù)視圖,以管理多源異構(gòu)數(shù)據(jù);在查詢方向,SEMEX不僅考慮了上下文語義信息等數(shù)據(jù)集成機制,還提出了利用用戶反饋來進化數(shù)據(jù)集成匹配和查詢結(jié)果。孟小峰等根據(jù)用戶的習(xí)慣來組織數(shù)據(jù),提出一種活動靜態(tài)模型TaskSpace,用于描述活動的組成要素;同時根據(jù)在用戶數(shù)據(jù)集合中,只有一部分核心任務(wù)的數(shù)據(jù)項被經(jīng)常使用,引入了核心數(shù)據(jù)空間模型CoreSpace (只包括與用戶緊密聯(lián)系的相關(guān)任務(wù)及所涉及的數(shù)據(jù)項)。該原型系統(tǒng)主要特點是引入了任務(wù)空間和核心空間,提供了基于任務(wù)的查詢、X見關(guān)鍵詞查詢及基于串匹配的近似搜索。寇月等提出一種基于語義的數(shù)據(jù)空間資源搜索策略,將數(shù)據(jù)資源搜索過程分為:查詢預(yù)處理,資源對象關(guān)聯(lián)評估和語義關(guān)聯(lián)評估,實現(xiàn)不同級別的語義查詢,現(xiàn)有的語義分析,或圖像分析等方法只能發(fā)現(xiàn)同一類型數(shù)據(jù)對象的關(guān)聯(lián),不能發(fā)現(xiàn)異質(zhì)異構(gòu)數(shù)據(jù)的關(guān)聯(lián),所以不能挖掘出異質(zhì)異相關(guān)數(shù)據(jù)對象集合。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題,在于提供一種數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,可以發(fā)現(xiàn)異質(zhì)異構(gòu)數(shù)據(jù)的關(guān)聯(lián),挖掘出異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)對象集合。
[0005]本發(fā)明是這樣實現(xiàn)的:一種數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,包括如下步驟:
[0006]步驟10、根據(jù)用戶活動日志文件,分別計算兩個活動窗口的相關(guān)度,再根據(jù)相關(guān)度計算出兩個活動對象之間的相關(guān)值,并將活動對象之間相關(guān)值大于第一閾值的活動對象關(guān)系保存在活動相關(guān)性分析文件中,所述一個活動窗口包括一個活動對象;
[0007]步驟20、根據(jù)活動相關(guān)性分析文件中的對象關(guān)系構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖G ;
[0008]步驟30、根據(jù)數(shù)據(jù)關(guān)聯(lián)圖構(gòu)造隱對象圖Gs ;[0009]步驟40、當(dāng)隱對象所代表的數(shù)據(jù)對象集的相關(guān)值滿足限定的條件時,根據(jù)所述隱對象圖Gs構(gòu)造一個新的隱對象圖Gs’ ;
[0010]步驟50、輸出新隱對象圖Gs’中的隱對象所代表的相關(guān)數(shù)據(jù)對象集合。
[0011]進一步地,所述步驟10中相關(guān)度包括:活動窗口的標(biāo)題語義相關(guān)度、內(nèi)容交互相關(guān)度、窗口切換相關(guān)度及活動時間相關(guān)度,所述活動對象關(guān)系為兩個活動對象及其相關(guān)值。
[0012]進一步地,所述步驟20進一步具體為:
[0013]步驟21、對于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)對象,根據(jù)其內(nèi)部結(jié)構(gòu)建立連接相應(yīng)節(jié)點的邊,并賦予權(quán)重;
[0014]步驟22、依次讀取活動相關(guān)性分析文件中所保存的對象關(guān)系,建立連接相應(yīng)節(jié)點的邊,并將該對象之間的相關(guān)值作為邊權(quán)重。
[0015]進一步地,所述步驟30進一步具體為:
[0016]步驟31、創(chuàng)建隱對象:以數(shù)據(jù)對象為節(jié)點,對于數(shù)據(jù)關(guān)聯(lián)圖G的每一個節(jié)點Vp,在與其相關(guān)值大于第二閾值并且不屬于其他隱對象的節(jié)點中找出相關(guān)值最大的節(jié)點V,,創(chuàng)建一個隱對象表示Ivp, VqI ;
[0017]步驟32、建立連接隱對象的邊:對于Gs中任意兩個不同的隱對象Si和,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象Si和之間的相關(guān)值,若Si和之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊;否則不建立。
[0018]進一步地,所述步驟40進一步具體為:
[0019]步驟41、創(chuàng)建Gs’的隱對象:對于隱對象圖Gs中的每一個隱對象Sp,在與其相關(guān)值大于第三閾值并且不屬于Gs’的隱對象的其他隱對象中找出相關(guān)值最大的隱對象s,,在Gs’中創(chuàng)建一個隱對象代表Sp和Sp所代表的所有數(shù)據(jù)對象。
[0020]步驟42、建立連接Gs’的隱對象的邊:對于Gs’中任意兩個不同的隱對象s’1和S,j,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象S,i和S,^之間的相關(guān)值,若S’ i和S’ j之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊,否則不建立。
[0021]進一步地,所述隱對象為數(shù)據(jù)對象集,即相關(guān)的異質(zhì)異構(gòu)數(shù)據(jù)集合。
[0022]進一步地,所述相關(guān)數(shù)據(jù)對象集合為相關(guān)的異質(zhì)異構(gòu)數(shù)據(jù)集合。
[0023]本發(fā)明具有如下優(yōu)點:通過捕獲用戶活動信息,發(fā)現(xiàn)不同數(shù)據(jù)對象的關(guān)聯(lián),包括異質(zhì)異構(gòu)數(shù)據(jù)的關(guān)聯(lián),然后利用所發(fā)現(xiàn)的關(guān)聯(lián),挖掘出異質(zhì)異相關(guān)數(shù)據(jù)對象集合。
【具體實施方式】
[0024]一種數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,包括如下步驟:
[0025]步驟10、根據(jù)用戶活動日志文件,分別計算兩個活動窗口的相關(guān)度,再根據(jù)相關(guān)度計算出兩個活動對象之間的相關(guān)值,并將活動對象之間相關(guān)值大于第一閾值的活動對象關(guān)系保存在活動相關(guān)性分析文件中,所述一個活動窗口包括一個活動對象;所述兩個活動窗口的相關(guān)度包括:活動窗口的標(biāo)題語義相關(guān)度、內(nèi)容交互相關(guān)度、窗口切換相關(guān)度及活動時間相關(guān)度,所述活動對象關(guān)系為兩個活動對象及其相關(guān)值。
[0026]步驟20、根據(jù)活動相關(guān)性分析文件中的對象關(guān)系構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖G ;所述步驟20進一步具體為:
[0027]步驟21、對于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)對象,根據(jù)其內(nèi)部結(jié)構(gòu)建立連接相應(yīng)節(jié)點的邊,并賦予權(quán)重;
[0028]步驟22、依次讀取活動相關(guān)性分析文件中所保存的對象關(guān)系,建立連接相應(yīng)節(jié)點的邊,并將該對象之間的相關(guān)值作為邊權(quán)重。
[0029]步驟30、根據(jù)數(shù)據(jù)關(guān)聯(lián)圖構(gòu)造隱對象圖Gs ;所述步驟30進一步具體為:
[0030]步驟31、創(chuàng)建隱對象:以數(shù)據(jù)對象為節(jié)點,對于數(shù)據(jù)關(guān)聯(lián)圖G的每一個節(jié)點Vp,在與其相關(guān)值大于第二閾值并且不屬于其他隱對象的節(jié)點中找出相關(guān)值最大的節(jié)點V,,創(chuàng)建一個隱對象表示Ivp, VqI ;
[0031]步驟32、建立連接隱對象的邊:對于Gs中任意兩個不同的隱對象Si和,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象Si和之間的相關(guān)值,若Si和之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊;否則不建立。
[0032]步驟40、當(dāng)隱對象所代表的數(shù)據(jù)對象集的相關(guān)值滿足限定的條件時,根據(jù)所述隱對象圖Gs構(gòu)造一個新的隱對象圖Gs’,所述步驟40進一步具體為:
[0033]步驟41、創(chuàng)建Gs’的隱對象:對于隱對象圖Gs中的每一個隱對象Sp,在與其相關(guān)值大于第三閾值并且不屬于Gs’的隱對象的其他隱對象中找出相關(guān)值最大的隱對象s,,在Gs’中創(chuàng)建一個隱對象代表Sp和Sp所代表的所有數(shù)據(jù)對象。
[0034]步驟42、建立連接Gs’的隱對象的邊:對于Gs’中任意兩個不同的隱對象s’i和S,j,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象S,i和S,^之間的相關(guān)值,若S’ i和S’ j之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊,否則不建立。;
[0035]步驟50、輸出新隱對象圖Gs’中的每一個隱對象所代表的數(shù)據(jù)對象集合,所述相關(guān)數(shù)據(jù)對象集合為相關(guān)的異 質(zhì)異構(gòu)數(shù)據(jù)集合。
[0036]所述數(shù)據(jù)對象包括結(jié)構(gòu)化數(shù)據(jù)對象、半結(jié)構(gòu)化數(shù)據(jù)對象及無結(jié)構(gòu)數(shù)據(jù)對象。
[0037]設(shè)有數(shù)據(jù)空間的數(shù)據(jù)對象集合V和用戶活動日志文件A。其中,每一個數(shù)據(jù)對象用一個三元組v(vid, vtype, vvalue)表示,其中vid表示數(shù)據(jù)對象的ID, vtype表示數(shù)據(jù)對象的數(shù)據(jù)類型,vvalue表示數(shù)據(jù)對象的描述。對于結(jié)構(gòu)化的數(shù)據(jù)對象,vvalue用元組的屬性值表示;半結(jié)構(gòu)化數(shù)據(jù)對象的vvalue用標(biāo)簽和元素值共同表示,無結(jié)構(gòu)的文本文檔則將文檔標(biāo)題作為此數(shù)據(jù)對象的vvalue。每一個用戶活動日志記錄包含活動時間(開始和結(jié)束時間)、活動窗口標(biāo)題和用戶的粘貼復(fù)制操作。
[0038]首先,根據(jù)用戶活動日志文件A,分別計算兩個活動窗口的標(biāo)題語義相關(guān)度、內(nèi)容交互相關(guān)度、窗口切換相關(guān)度和活動時間相關(guān)度,然后綜合這四個相關(guān)度,計算出兩兩活動對象之間的相關(guān)值,并將活動對象之間相關(guān)值大于指定閾值的活動對象關(guān)系保存在活動相關(guān)性分析文件中。
[0039]第二步,構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖G。以數(shù)據(jù)對象為節(jié)點,分兩步建立連接節(jié)點的邊:
[0040](I)對結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),根據(jù)其內(nèi)部結(jié)構(gòu),如關(guān)系數(shù)據(jù)庫中元組和元組之間的引用關(guān)系、XML文檔中元素之間的父子關(guān)系,建立連接相應(yīng)節(jié)點的邊,并賦予權(quán)重。
[0041](2)依次讀取活動相關(guān)性分析文件中所保存的對象關(guān)系,建立連接相應(yīng)節(jié)點的邊,并將該對象之間的相關(guān)值作為邊權(quán)重。
[0042]第三步,構(gòu)造隱對象圖Gs。構(gòu)造過程分為下列兩步:
[0043](I)創(chuàng)建隱對象:對于數(shù)據(jù)關(guān)聯(lián)圖G的每一個節(jié)點Vp,在與其相關(guān)值大于指定閾值并且不屬于其他隱對象的節(jié)點中,找出相關(guān)值最大的節(jié)點V,,創(chuàng)建一個隱對象代表|VP,V(1}。[0044](2)建立連接隱對象的邊:對于Gs中任意兩個不同的隱對象Si和Sj,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象Si和S」之間的相關(guān)值。如果Si和S」之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊。
[0045]第四步,當(dāng)隱對象所代表的數(shù)據(jù)對象集的相關(guān)度滿足指定的條件時,用下列迭代方法,由隱對象圖Gs,構(gòu)造一個新的隱對象圖Gs’。
[0046](I)創(chuàng)建Gs’的隱對象:對于隱對象圖Gs的每一個隱對象Sp,在與其相關(guān)度大于指定閾值并且不屬于Gs’的新隱對象的隱對象中,找出相關(guān)度最大的隱對象 ',創(chuàng)建一個Gs’的新隱對象代表Sp和Sp所代表的所有數(shù)據(jù)對象。
[0047](2)建立連接新隱對象的邊:對于Gs’中任意兩個不同的隱對象s’ i和s’」,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象S,i和S,J之間的相關(guān)度。如果S,i和S,J之間的相關(guān)值大于0,則建立連接節(jié)點s’ i和s’ j的邊。
[0048]最后,輸出相關(guān)的數(shù)據(jù)對象集合:上一步所得到的隱對象圖中,每一個隱對象所代表的數(shù)據(jù)對象集就是一個相關(guān)的異質(zhì)異構(gòu)數(shù)據(jù)集合。取出并輸出每一個隱對象所代表的數(shù)據(jù)對象集。
[0049]本發(fā)明為挖掘異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合提供了一種有效選擇解決方案,為實現(xiàn)數(shù)據(jù)空間關(guān)聯(lián)數(shù)據(jù)查詢打下基礎(chǔ)。
[0050]要實現(xiàn)數(shù)據(jù)空間關(guān)聯(lián)數(shù)據(jù)查詢,必須挖掘異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合。本發(fā)明利用結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系,結(jié)合用戶活動中蘊涵的潛在的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,來挖掘異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合。
[0051]收集數(shù)據(jù)空間的用戶活動信息:為了捕獲用戶活動信息,本文開發(fā)了一個用戶活動信息收集子系統(tǒng)。該子系統(tǒng)捕獲數(shù)據(jù)空間的用戶活動信息,并將這些信息保存在一個用戶活動日志文件中。保存的用戶活動信息包括活動的開始和結(jié)束時間、活動所涉及的數(shù)據(jù)對象(窗口標(biāo)題內(nèi)容)和用戶對數(shù)據(jù)對象的粘貼復(fù)制操作。
[0052]數(shù)據(jù)準(zhǔn)備:在數(shù)據(jù)空間中加入下列結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù):
[0053]結(jié)構(gòu)化數(shù)據(jù):Microsoft SQL SERVER自帶的關(guān)系數(shù)據(jù)庫pubs和Northwind。
[0054]半結(jié)構(gòu)化數(shù)據(jù):http://research.cs.wise, edu/niagara/data.html 網(wǎng)站 ‘XMLdata bank’提供的XML文檔及一些網(wǎng)頁(HTML文檔)
[0055]無結(jié)構(gòu)數(shù)據(jù):文本文檔20-Newsgroup data, 一些JPEG文件、BMP文件、WindowMedia音頻文件等多媒體文件。
[0056]以上述用戶活動日志文件和數(shù)據(jù)空間中的數(shù)據(jù)對象集合作為輸入,按下列處理步驟挖掘相關(guān)的異質(zhì)異構(gòu)數(shù)據(jù)集合:
[0057]可以表示如下:
[0058]步驟1:執(zhí)行算法1,從用戶活動日志文件中發(fā)現(xiàn)潛在的數(shù)據(jù)對象之間的關(guān)聯(lián)關(guān)系O
[0059]活動相關(guān)性分析
[0060]輸入:用戶活動日志文件A
[0061]輸出:活動相關(guān)性分析文件B
[0062]對于日志文件任意兩個不同的活動對象Vi和Vj,作下列處理:
[0063]根據(jù)兩個對象活動窗口標(biāo)題內(nèi)容,計算Vi和V」的語義相關(guān)度sim(Vi, Vj);[0064]根據(jù)兩個對象活動窗口粘貼復(fù)制動作,計算Vi和Vj的內(nèi)容交互相關(guān)度intact (Vi,
vJ);
[0065]根據(jù)兩個對象活動窗口互相切換的次數(shù),計算Vi和Vj的切換相關(guān)度toggle (Vi,
vJ);
[0066]根據(jù)兩個對象活動時間的重疊,計算Vi和V」的時間相關(guān)度time (Vi, Vj);
[0067]計算Vi和Vj的相關(guān)值:
[0068]r (Vi, Vj) =W1^sim (Vi, Vj)+w2*intact (Vi, Vj)+w3*toggle (Vi, Vj)+w4*time (Vi, Vj),其中 W1 為 sim (Vi, Vj)的權(quán)重,W2 為 intact (Vi, Vj)的權(quán)重,W3 為 toggle (Vi, Vj)的權(quán)重,W4 為time (Vi, V」)的權(quán)重。
[0069]如果r (Vi, Vj)大于第一閾值δ,則將活動對象Vi和Vj及其相關(guān)值r (Vi, Vj)寫入活動相關(guān)性分析文件B;
[0070]步驟2:構(gòu)造一個以數(shù)據(jù)對象為節(jié)點,以數(shù)據(jù)關(guān)系為邊,以[0,I]區(qū)間實數(shù)為邊權(quán)重的賦權(quán)圖。
[0071]構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖
[0072]輸入:數(shù)據(jù)空間的數(shù)據(jù)對象集V,活動相關(guān)性分析文件B [0073]輸出:數(shù)據(jù)關(guān)聯(lián)圖G
[0074]對于數(shù)據(jù)對象集V中的每一個數(shù)據(jù)對象Vi,作下列處理:
[0075]如果Vi是關(guān)系元組,則獲取與Vi存在引用關(guān)系的數(shù)據(jù)對象Vj,將e(Vi,Vj)的權(quán)重設(shè)置為I,其中e(Vi, Vj)表示節(jié)點Vi和節(jié)點之間V」的邊;
[0076]如果Vi是XML或HTML元素,則獲取Vi的父結(jié)點Vj,設(shè)置e (Vj, Vi)相應(yīng)的權(quán)重,其中e(Vi, Vj)表示節(jié)點Vi和節(jié)點之間Vj的邊;
[0077]對于活動相關(guān)性分析文件B的每一個記錄,作下列處理:
[0078]讀取數(shù)據(jù)對象Vi和Vj的活動相關(guān)值Hvi, Vi);在e (vp, vq)的權(quán)重加入Hvi, Vi)(權(quán)重最大取I);
[0079]步驟3:構(gòu)造隱對象圖Gs。
[0080]構(gòu)造隱對象圖
[0081]輸入:數(shù)據(jù)關(guān)聯(lián)圖G
[0082]輸出:隱對象圖Gs
[0083]對于G的每一個數(shù)據(jù)對象vp,作下列處理:
[0084]在與Vp鄰接且邊權(quán)大于指定閾值并且不屬于其他隱對象的節(jié)點中,取出邊權(quán)最大的節(jié)點Vq,倉Ij建一個隱對象Si代替{vp, VqI。
[0085]對于Gs中的每一對隱對象Si和Sj ( i古j ),作下列處理:
[0086]根據(jù)Si和Sj所代表的數(shù)據(jù)對象之間的邊權(quán),計算e (Si, Sj)的權(quán)重,其中e (Si, Sj)表示節(jié)點Si和節(jié)點之間Sj的邊;
[0087]如果e (Si, Sj)的權(quán)重大于0,則建立連接節(jié)點Si和Sj的邊;
[0088]步驟4:在隱對象所代表的數(shù)據(jù)對象集的相關(guān)值滿足指定的條件的情況下,用迭代方法由一個隱對象圖Gs,構(gòu)造一個更優(yōu)的新隱對象圖Gs’(新的隱對象代表更多的相關(guān)數(shù)據(jù)對象)。完成迭代后,新隱對象圖的每一個隱對象代表一個相關(guān)數(shù)據(jù)對象集合。
[0089]從隱對象圖挖掘相關(guān)數(shù)據(jù)對象集合[0090]輸入:隱對象圖Gs
[0091]輸出:相關(guān)數(shù)據(jù)對象集
[0092]當(dāng)隱對象代表的相關(guān)數(shù)據(jù)對象集滿足指定條件時,作下列處理:
[0093]對于Gs的每一個sp,作下列處理:
[0094]在與Sp相關(guān)值大于指定閾值并且不屬于Gs’的新隱對象的隱對象中,找出相關(guān)值最大的隱對象s,,創(chuàng)建Gs’的一個新隱對象來代表Sp和Sp所代表的所有數(shù)據(jù)對象;
[0095]對于Gs’的每一對隱對象S,i,和S,j ( i關(guān)j ),作下列處理:
[0096]根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象S,i和S,j之間的相關(guān)值;
[0097]如果s’ i和s’ j之間的相關(guān)值大于0,則建立連接s’ i和s’ j的邊;
[0098]將Gs’ 存入 Gs ;
[0099]對于Gs的每一個Sp,取出Sp所代表的所有數(shù)據(jù)對象,作為一個相關(guān)數(shù)據(jù)對象集輸出。
[0100]也可以表示如下:
[0101]步驟1:執(zhí)行算法1,從用戶活動日志文件中發(fā)現(xiàn)潛在的數(shù)據(jù)對象之間的關(guān)聯(lián)關(guān)系:
[0102]算法1:活動相關(guān)性分析
[0103]輸入:用戶活動日志文件A
[0104]輸出:活動相關(guān)性分析文件B
[0105]1、for (日志文件任意兩個不同的活動對象Vi和Vj)
[0106]2、{根據(jù)兩個對象活動窗口標(biāo)題內(nèi)容,計算Vi和Vj的語義相關(guān)度sim(Vi, Vj);
[0107]3、根據(jù)兩個對象活動窗口粘貼復(fù)制動作,計算Vi和Vj的內(nèi)容交互相關(guān)度
intact (Vi, Vj);
[0108]4、根據(jù)兩個對象活動窗口互相切換的次數(shù),計算Vi和Vj的切換相關(guān)度toggle (Vi,
vJ);
[0109]5、根據(jù)兩個對象活動時間的重疊,計算Vi和V」的時間相關(guān)度time (Vi, Vj);
[0110]6、計算 Vi 和 V』的相關(guān)值:r (Vi, Vj) =WfsimOi, Vj)+w2*intact (Vi,VjHw^toggleOi, Vj)+W^timeOi, Vj),,其中 Wi 為 Sim(VpVj)的權(quán)重,W2 為 intact (Vi, Vj)的權(quán)重,W3為toggle (Vi, ν」)的權(quán)重,W4為time (Vi, Vj)的權(quán)重
[0111]7、if (r (Vi, Vj) > δ ) {將活`動對象Vi和Vj及其相關(guān)值r (Vi, Vj)寫入活動相關(guān)性分析文件B};
[0112]8、}
[0113]步驟2:執(zhí)行算法2,構(gòu)造一個以數(shù)據(jù)對象為節(jié)點,以數(shù)據(jù)關(guān)系為邊,以[0,1]區(qū)間實數(shù)為邊權(quán)重的賦權(quán)圖。
[0114]算法2:構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖
[0115]輸入:數(shù)據(jù)空間的數(shù)據(jù)對象集V,活動相關(guān)性分析文件B
[0116]輸出:數(shù)據(jù)關(guān)聯(lián)圖G
[0117]1、for (每一個數(shù)據(jù)對象Vi e V)
[0118]2、{if (Vi是關(guān)系元組){獲取與Vi存在引用關(guān)系的數(shù)據(jù)對象vj;設(shè)e(Vi,Vj)的權(quán)重為1,其中e(Vi, Vj)表示節(jié)點Vi和節(jié)點之間V」的邊};[0119]3、if (Vi是XML或HTML元素){獲取Vi的父結(jié)點Vj;設(shè)置e (Vj,Vi)相應(yīng)的權(quán)重};
[0120]4、};
[0121]5、for (活動相關(guān)性分析文件B的每一個記錄)
[0122]6、{讀取數(shù)據(jù)對象Vi和Vj的活動相關(guān)值r (Vi, Vi);在e(vp,vq)的權(quán)重加入r (Vi, Vi)(權(quán)重最大取I) };
[0123]步驟3:執(zhí)行算法3,構(gòu)造隱對象圖Gs。
[0124]算法3:構(gòu)造隱對象圖
[0125]輸入:數(shù)據(jù)關(guān)聯(lián)圖G
[0126]輸出:隱對象圖Gs
[0127]1、for (G的每一個數(shù)據(jù)對象vp)
[0128]2、{在與Vp鄰接且邊權(quán)大于第二閾值并且不屬于其他隱對象的節(jié)點中,取出邊權(quán)最大的節(jié)點Vq,倉Ij建一個隱對象Si代替{vp, VqI。
[0129]3、for (每一個Gs中的隱對象Si)
[0130]4、for (每一個 S」且 i 古 j)
[0131]5、{根據(jù)Si和所代表的數(shù)據(jù)對象之間的邊權(quán),計算e (Si, Sp的權(quán)重,其中e(Si, Sj)表示節(jié)點Si和節(jié)點之間Sj的邊;
[0132]6、if(e (Si,Sj)的權(quán)重>0) `{建立連接節(jié)點Si和Sj的邊}
[0133]7、}
[0134]步驟4:執(zhí)行算法4,在隱對象所代表的數(shù)據(jù)對象集的相關(guān)值滿足指定的條件的情況下,用迭代方法由一個隱對象圖Gs,構(gòu)造一個更優(yōu)的新隱對象圖Gs’(新的隱對象代表更多的相關(guān)數(shù)據(jù)對象)。完成迭代后,新隱對象圖的每一個隱對象代表一個相關(guān)數(shù)據(jù)對象集合。
[0135]算法4:從隱對象圖挖掘相關(guān)數(shù)據(jù)對象集合
[0136]輸入:隱對象圖Gs
[0137]輸出:相關(guān)數(shù)據(jù)對象集
[0138]UWhile(隱對象代表的相關(guān)數(shù)據(jù)對象集滿足指定條件)do
[0139]2、{for (Gs 的每一個 sp)
[0140]3、{在與sp相關(guān)值大于第三閾值并且不屬于Gs’的新隱對象的隱對象中,找出相關(guān)值最大的
[0141]4、隱對象V創(chuàng)建Gs’的一個新隱對象來代表Sp和Sp所代表的所有數(shù)據(jù)對象};
[0142]5> for (Gs'的每一個 s’^
[0143]6> for (Gs'中的每一個s’」且i古j)
[0144]7、{根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象s’ i和s’ j之間的相關(guān)值;
[0145]8、If (s’ i和S,j之間的相關(guān)值>0) {建立連接S,i和S,」的邊}
[0146]9、}
[0147]10、Gs=Gs,;
[0148]11、}
[0149]12、for (Gs的每一個sp) {取出Sp所代表的所有數(shù)據(jù)對象,作為一個相關(guān)數(shù)據(jù)對象集輸出}[0150]對于如上所述的實例數(shù)據(jù)的挖掘結(jié)果,本文通過計算被加入到相關(guān)數(shù)據(jù)集的數(shù)據(jù)的正確率進行評估。當(dāng)?shù)螖?shù)大于8時,正確率趨于穩(wěn)定,達到98.45%。為測試算法的時間性能,本文對不同數(shù)量的數(shù)據(jù)對象集進行測試。對于包含999個數(shù)據(jù)對象和11250條關(guān)聯(lián)邊的數(shù)據(jù)集合,算法的執(zhí)行時間約3.7秒。當(dāng)據(jù)增加到1779個數(shù)據(jù)對象和23755條關(guān)聯(lián)邊時,算法的執(zhí)行時間增加約I秒。還測試了包含2000多個數(shù)據(jù)對象和3000多個數(shù)據(jù)對象的數(shù)據(jù)集合,算法的執(zhí)行時間都沒有隨著數(shù)據(jù)對象數(shù)量的增長而成倍增長。實驗結(jié)果表明了本算法的可行性。
[0151]本發(fā)明具有如下優(yōu)點:通過捕獲用戶活動信息,發(fā)現(xiàn)不同數(shù)據(jù)對象的關(guān)聯(lián),包括異質(zhì)異構(gòu)數(shù)據(jù)的關(guān)聯(lián),然后利用所發(fā)現(xiàn)的關(guān)聯(lián),挖掘出異質(zhì)異相關(guān)數(shù)據(jù)對象集合。
[0152]雖然以上描述了本發(fā)明的【具體實施方式】,但是熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員應(yīng)當(dāng)理解,我們所描述的具體的實施例只是說明性的,而不是用于對本發(fā)明的范圍的限定,熟悉本領(lǐng)域的技術(shù)人員在依照本發(fā)明的精神所作的等效的修飾以及變化,都應(yīng)當(dāng)涵蓋在本發(fā)明的權(quán)利要求所保護的范圍內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:包括如下步驟: 步驟10、根據(jù)用戶活動日志文件,分別計算兩個活動窗口的相關(guān)度,再根據(jù)相關(guān)度計算出兩個活動對象之間的相關(guān)值,并將活動對象之間相關(guān)值大于第一閾值的活動對象關(guān)系保存在活動相關(guān)性分析文件中; 步驟20、根據(jù)活動相關(guān)性分析文件中的對象關(guān)系構(gòu)造數(shù)據(jù)關(guān)聯(lián)圖G ; 步驟30、根據(jù)數(shù)據(jù)關(guān)聯(lián)圖構(gòu)造隱對象圖Gs ; 步驟40、當(dāng)隱對象所代表的數(shù)據(jù)對象集的相關(guān)值滿足限定的條件時,根據(jù)所述隱對象圖Gs構(gòu)造一個新的隱對象圖Gs’ ; 步驟50、輸出新隱對象圖Gs’中的隱對象所代表的相關(guān)數(shù)據(jù)對象集合。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:所述步驟10中相關(guān)度包括:活動窗口的標(biāo)題語義相關(guān)度、內(nèi)容交互相關(guān)度、窗口切換相關(guān)度及活動時間相關(guān)度,所述活動對象關(guān)系為兩個活動對象及其相關(guān)值。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:所述步驟20進一步具體為: 步驟21、對于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)對象,根據(jù)其內(nèi)部結(jié)構(gòu)建立連接相應(yīng)節(jié)點的邊,并賦予權(quán)重; 步驟22、依次讀取活動相關(guān)性分析文件中所保存的活動對象關(guān)系,建立連接相應(yīng)節(jié)點的邊,并將該對象之間的相關(guān)值作為邊權(quán)重。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:所述步驟30進一步具體為: 步驟31、創(chuàng)建隱對象:以數(shù)據(jù)對象為節(jié)點,對于數(shù)據(jù)關(guān)聯(lián)圖G的每一個節(jié)點Vp,在與其相關(guān)值大于第二閾值并且不屬于其他隱對象的節(jié)點中找出相關(guān)值最大的節(jié)點V,,創(chuàng)建一個隱對象表示{vp, vq}; 步驟32、建立連接隱對象的邊:對于Gs中任意兩個不同的隱對象Si和,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象Si和S」之間的相關(guān)值,若Si和S」之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊;否則不建立。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:所述步驟40進一步具體為: 步驟41、創(chuàng)建Gs’的隱對象:對于隱對象圖Gs中的每一個隱對象Sp,在與其相關(guān)值大于第三閾值并且不屬于Gs’的隱對象的其他隱對象中找出相關(guān)值最大的隱對象V在Gs’中創(chuàng)建一個隱對象代表Sp和Sp所代表的所有數(shù)據(jù)對象。 步驟42、建立連接Gs’的隱對象的邊:對于Gs’中任意兩個不同的隱對象s’1和s’」,根據(jù)它們所代表的數(shù)據(jù)對象之間的相關(guān)度,計算隱對象s’ i和s’ j之間的相關(guān)值,若s’ i和S,j之間的相關(guān)值大于0,則建立連接節(jié)點Si和Sj的邊,否則不建立。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:所述相關(guān)數(shù)據(jù)對象集合為相關(guān)的異質(zhì)異構(gòu)數(shù)據(jù)集合。
7.根據(jù)權(quán)利要求1、2、3、4或5所述的數(shù)據(jù)空間中異質(zhì)異構(gòu)相關(guān)數(shù)據(jù)集合挖掘方法,其特征在于:所述數(shù)據(jù)對象包括結(jié)構(gòu)化數(shù)據(jù)對象、半結(jié)構(gòu)化數(shù)據(jù)對象及無結(jié)構(gòu)數(shù)據(jù)對象。
【文檔編號】G06F17/30GK103886049SQ201410090732
【公開日】2014年6月25日 申請日期:2014年3月12日 優(yōu)先權(quán)日:2014年3月12日
【發(fā)明者】吳揚揚, 陳鍛生, 劉莉 申請人:華僑大學(xué)