国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)及其方法

      文檔序號(hào):6523905閱讀:207來(lái)源:國(guó)知局
      專利名稱:基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)及其方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)計(jì)算技術(shù),特別是涉及一種面向internet數(shù)據(jù)搜索應(yīng)用的、基于網(wǎng)格技術(shù)的、支持大規(guī)并行搜索機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)的理論、技術(shù)和實(shí)現(xiàn)方法。
      背景技術(shù)
      隨著Internet和信息技術(shù)的飛速發(fā)展,特別是Web技術(shù)的廣泛應(yīng)用,面對(duì)呈爆炸趨勢(shì)增長(zhǎng)的Internet信息海洋,使得人們對(duì)網(wǎng)絡(luò)數(shù)據(jù)的挖掘技術(shù)和搜索技術(shù)的研究越來(lái)越迫切,并已經(jīng)出現(xiàn)許多實(shí)用的搜索技術(shù)。搜索方法分為結(jié)構(gòu)化方法和非結(jié)構(gòu)化方法,結(jié)構(gòu)化方法更適合企業(yè)網(wǎng)。以P2P為核心技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)由于其特點(diǎn)被廣泛地應(yīng)用到Internet的數(shù)據(jù)搜索中,如Gnutella和Freenet.基于P2P技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)搜索引擎已經(jīng)被廣泛使用并已成為業(yè)界研究熱點(diǎn)。由于P2P系統(tǒng)是一個(gè)分散的、動(dòng)態(tài)的系統(tǒng),系統(tǒng)中不存在中心控制節(jié)點(diǎn),節(jié)點(diǎn)可以動(dòng)態(tài)地加入和退出網(wǎng)絡(luò),是一個(gè)全分散的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),這樣隨著搜索網(wǎng)絡(luò)規(guī)模的增大,效率將變得低下,并且系統(tǒng)的管理也變得困難。與此同時(shí),網(wǎng)格技術(shù)可能成為另一個(gè)可行的解決方案。目前由多個(gè)計(jì)算機(jī)網(wǎng)絡(luò)構(gòu)成的Intranet越來(lái)越多,大量的廉價(jià)的個(gè)人計(jì)算裝置隨處可見(jiàn),但是它們的資源利用率非常低。利用這些空閑計(jì)算機(jī)的計(jì)算資源、存儲(chǔ)資源、通信資源,可以得到大量的、非專用的、廉價(jià)的、大規(guī)模的、分布廣泛的網(wǎng)絡(luò)數(shù)據(jù)搜索機(jī)。顯然如此規(guī)模的數(shù)據(jù)搜索系統(tǒng)可以帶來(lái)可觀的搜索、挖掘性能,然而其管理問(wèn)題也是一個(gè)難題。

      發(fā)明內(nèi)容
      針對(duì)上述現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種具有良好的可擴(kuò)展性、并發(fā)性、良好的挖掘效率和對(duì)Internet的較高的數(shù)據(jù)搜索效率的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)及其方法。
      為了解決上述技術(shù)問(wèn)題,本發(fā)明提供的一種基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),即數(shù)據(jù)搜索網(wǎng)格,簡(jiǎn)記為DSG(Data Searching Grid),其特征在于,所述數(shù)據(jù)搜索網(wǎng)格由數(shù)據(jù)搜索節(jié)點(diǎn)和數(shù)據(jù)搜索服務(wù)器構(gòu)成;所述數(shù)據(jù)搜索節(jié)點(diǎn)(Data Searching Node)是一個(gè)六元組DSN(Did,Da,Dr,Dp,Dfunc,Dlib),其中Did為其的標(biāo)幟符;Da為其能力,可根據(jù)DSN的計(jì)算能力、存儲(chǔ)能力、I/O能力、通信能力、搜索算法而定;Dr為其可信度,可以根據(jù)該挖掘節(jié)點(diǎn)的穩(wěn)定生存時(shí)間、成功完成挖掘任務(wù)的比率、網(wǎng)絡(luò)可達(dá)性等運(yùn)用統(tǒng)計(jì)機(jī)制計(jì)算而得;Dp為其服務(wù)代價(jià),即其作為網(wǎng)格成員應(yīng)該獲得的回報(bào);Dfunc為該數(shù)據(jù)搜索節(jié)點(diǎn)的搜索算法集合;Dlib為其局部數(shù)據(jù)庫(kù),用來(lái)緩存數(shù)據(jù)字典、網(wǎng)絡(luò)數(shù)據(jù)搜索的臨時(shí)結(jié)果;所述數(shù)據(jù)搜索服務(wù)器(Data Searching Server)是一個(gè)九元組DSS(Sid,Slevel,Sa,Sr,Sp,Sfather,Sson,Sfunc,Slib),其中Sid為其的標(biāo)幟符;Slevel為該服務(wù)器的級(jí)別;Sa為其能力,可根據(jù)DSS的計(jì)算能力、存儲(chǔ)能力、I/O能力、通信能力、搜索算法而定;Sr為其可信度,可以根據(jù)該挖掘節(jié)點(diǎn)的穩(wěn)定生存時(shí)間、成功完成挖掘任務(wù)的比率、網(wǎng)絡(luò)可達(dá)性等運(yùn)用統(tǒng)計(jì)機(jī)制計(jì)算而得;Sp為其服務(wù)代價(jià),即其作為網(wǎng)格成員應(yīng)該獲得的回報(bào);Sfather該服務(wù)器父服務(wù)器的集合(本系統(tǒng)中該域?yàn)榫W(wǎng)格主控制器);Sson為該服務(wù)器所轄的數(shù)據(jù)搜索節(jié)點(diǎn)的集合;Sfunc為其搜索功能部件集合;Slib為其服務(wù)器數(shù)據(jù)庫(kù),用來(lái)緩存數(shù)據(jù)字典、網(wǎng)絡(luò)數(shù)據(jù)搜索的臨時(shí)結(jié)果;所述數(shù)據(jù)搜索網(wǎng)格為四元組DSG(Master,Sdss,Sdsn,Srule),其中Master為網(wǎng)格主控器;Sdss為其所轄數(shù)據(jù)搜索服務(wù)器的集合;Sdsn為其所轄數(shù)據(jù)挖掘節(jié)點(diǎn)的集合;Srule為其邏輯拓?fù)浣Y(jié)構(gòu)規(guī)則。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格通過(guò)圓形數(shù)據(jù)搜索區(qū)域?qū)nternet進(jìn)行覆蓋;所述圓形數(shù)據(jù)搜索區(qū)域?yàn)樵贗nternet上以任意一個(gè)計(jì)算節(jié)點(diǎn)為圓心,以常數(shù)r(網(wǎng)絡(luò)跳機(jī)制距離)為半徑作一個(gè)圓,所得的圓形面積區(qū)域;圓形數(shù)據(jù)搜索區(qū)域內(nèi)的所有被搜索的數(shù)據(jù)源(如web)稱為該區(qū)域的數(shù)據(jù)搜索對(duì)象;r是圓形區(qū)域搜索半徑。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格通過(guò)數(shù)據(jù)服務(wù)器區(qū)域?qū)A形數(shù)據(jù)搜索區(qū)域進(jìn)行二級(jí)管理;所述數(shù)據(jù)服務(wù)器區(qū)域?yàn)橐粋€(gè)數(shù)據(jù)搜索服務(wù)器DSS所管轄的多個(gè)相鄰的(網(wǎng)絡(luò)相鄰)圓形數(shù)據(jù)搜索區(qū)域構(gòu)成的復(fù)合區(qū)域;其規(guī)模由所轄圓形數(shù)據(jù)搜索區(qū)域集合的數(shù)據(jù)業(yè)務(wù)綜合確定;每個(gè)圓形數(shù)據(jù)搜索區(qū)域一定隸屬一個(gè)DSS。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格基于網(wǎng)絡(luò)搜索節(jié)點(diǎn)密度的度量因數(shù)的自動(dòng)約束規(guī)則;所述網(wǎng)絡(luò)搜索節(jié)點(diǎn)密度DSG的一個(gè)搜索區(qū)域A,s為A中的DSN的個(gè)數(shù),w為A中的數(shù)據(jù)搜索對(duì)象的數(shù)目,則d=s/w為區(qū)域A的數(shù)據(jù)搜索節(jié)點(diǎn)密度。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格基于計(jì)算節(jié)點(diǎn)特征向量的度量因數(shù)的自動(dòng)約束規(guī)則;所述計(jì)算節(jié)點(diǎn)特征向量為internet上的每個(gè)計(jì)算節(jié)點(diǎn)都設(shè)有一個(gè)記載其能力、可信度和服務(wù)代價(jià)的向量v=(va,vr,vp),稱該計(jì)算節(jié)點(diǎn)的特征向量。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格基于區(qū)域服務(wù)代價(jià)值的度量因數(shù)的自動(dòng)約束規(guī)則;所述區(qū)域服務(wù)代價(jià)值在一個(gè)圓形數(shù)據(jù)搜索區(qū)域內(nèi)的所有數(shù)據(jù)搜索節(jié)點(diǎn)都會(huì)得到回報(bào)Repay,用一個(gè)數(shù)值來(lái)表示,稱區(qū)域服務(wù)代價(jià)值。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格基于計(jì)算節(jié)點(diǎn)市場(chǎng)的度量因數(shù)的自動(dòng)約束規(guī)則;所述計(jì)算節(jié)點(diǎn)市場(chǎng)是一個(gè)計(jì)算節(jié)點(diǎn)集合,每個(gè)計(jì)算節(jié)點(diǎn)都有自己的特征向量。
      較佳地,所述數(shù)據(jù)搜索網(wǎng)格基于數(shù)據(jù)搜索代理DA的度量因數(shù)的自動(dòng)約束規(guī)則;所述數(shù)據(jù)搜索代理DA在互聯(lián)網(wǎng)的各個(gè)區(qū)域上,介于數(shù)據(jù)搜索用戶和DSG之間、進(jìn)行業(yè)務(wù)關(guān)聯(lián)的網(wǎng)格服務(wù)實(shí)體被稱為數(shù)據(jù)搜索代理DA。
      為了簡(jiǎn)化描述,設(shè)定其規(guī)模為該DSS所轄的圓形數(shù)據(jù)搜索區(qū)域的個(gè)數(shù),并記常數(shù)NS。
      為了解決上述技術(shù)問(wèn)題,本發(fā)明提供的一種構(gòu)建基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)的方法;設(shè)在internet的各個(gè)區(qū)域有p個(gè)計(jì)算節(jié)點(diǎn)C1,C2,…,Cp,它們的特征向量分別為v1,v2,…,vp;r為初始數(shù)據(jù)搜索區(qū)域半徑;d為DSG的數(shù)據(jù)搜索節(jié)點(diǎn)密度閾值;該方法的步驟如下1)根據(jù)網(wǎng)絡(luò)跳為距離單位,計(jì)算p個(gè)計(jì)算節(jié)點(diǎn)的所在區(qū)域邊界,確定該計(jì)算節(jié)點(diǎn)集合的矩形區(qū)域,設(shè)該區(qū)域長(zhǎng)為L(zhǎng),寬為W;取矩形區(qū)域左下角為坐標(biāo)原點(diǎn)。
      2)計(jì)算矩形區(qū)域的中心(x,y),計(jì)算如下x=(L+2r)/2;y=(W+2r)/2;/*在矩形的四周個(gè)加入一個(gè)寬度為r的帶條*/3)以(x,y)為圓心、以r為半徑作圓,形成一個(gè)區(qū)域?yàn)锳1;4)以(x,y)為圓心,以2r為半徑作一個(gè)虛線圓Circle1;置Circle=Circle1;5)然后在Circle的圓弧線上任取一點(diǎn),以r為半徑作圓,得到區(qū)域A2;同樣重復(fù)在Circle的弧線上作圓,得到一組區(qū)域A3,A4,…,Ak,使A2,A3,A4,…,Ak恰好完全覆蓋Circle的圓弧,并且各個(gè)區(qū)域互不相交;6)同樣以(x,y)為圓心,以4r,6r,8r,…為半徑做同心圓Circle1,Circle2,……;取Circle=Circle2,Cirlce3,……,重復(fù)執(zhí)行5),直到某個(gè)虛線同心圓覆蓋了矩形區(qū)域?yàn)橹梗坏玫綀A形數(shù)據(jù)搜索區(qū)域序列A1,A2,A3,….,An;7)確定計(jì)算節(jié)點(diǎn)C1,C2,…,Cp所在的圓形數(shù)據(jù)搜索區(qū)域,并把它們的特征向量的各個(gè)分量va,vr,vp分別添加到Da,Dr,Dp域;計(jì)算每個(gè)圓形數(shù)據(jù)搜索區(qū)域的數(shù)據(jù)搜索節(jié)點(diǎn)密度;根據(jù)閾值確定各個(gè)圓形數(shù)據(jù)搜索區(qū)域的狀態(tài),設(shè)區(qū)域Ai的實(shí)際數(shù)據(jù)搜索節(jié)點(diǎn)密度為di,圓形區(qū)域Ai的狀態(tài)計(jì)算方法如下IF di/d=0 thenAi為無(wú)效狀態(tài);
      Else IF 0<di/d<1 ThenAi為薄弱狀態(tài);Else IF di/d>1 ThenAi為過(guò)強(qiáng)狀態(tài);Else IF di/d=1 ThenAi為飽滿狀態(tài);End If;8)對(duì)每個(gè)圓形數(shù)據(jù)搜索區(qū)域Ai構(gòu)建數(shù)據(jù)搜索節(jié)點(diǎn),設(shè)定其區(qū)域服務(wù)代價(jià),形成n個(gè)數(shù)據(jù)搜索區(qū)域;9)對(duì)無(wú)效和薄弱狀態(tài)區(qū)域,增加服務(wù)代價(jià)值,以便吸引更多該區(qū)域內(nèi)的閑散的計(jì)算節(jié)點(diǎn)成為該區(qū)域的數(shù)據(jù)搜索節(jié)點(diǎn);10)對(duì)飽滿狀態(tài)的區(qū)域,適當(dāng)減少服務(wù)代價(jià)值,迫使一些節(jié)點(diǎn)退出數(shù)據(jù)搜索工作;11)通過(guò)網(wǎng)絡(luò)相鄰的多個(gè)數(shù)據(jù)搜索區(qū)域組合構(gòu)成數(shù)據(jù)服務(wù)器區(qū)域,使得每個(gè)數(shù)據(jù)服務(wù)器區(qū)域的規(guī)模不大于NS,這樣{A1,A2,A3,….,An}被劃分成多個(gè)互補(bǔ)相交的子集合,每個(gè)子集合為DSG的一個(gè)DSS區(qū)域;在每個(gè)數(shù)據(jù)服務(wù)器區(qū)域的所有數(shù)據(jù)搜索節(jié)點(diǎn)中,取可信度最高、能力最大的數(shù)據(jù)搜索節(jié)點(diǎn)DSN為該數(shù)據(jù)服務(wù)器區(qū)域的數(shù)據(jù)搜索服務(wù)器DSS(Sid,Slevel,Sa,Sr,Sp,Sfather,Sson,Sfunc,Slib),從DSG的Master獲取Sfunc,Slib,并填寫所有參數(shù),并使DSN的Da,Dr,Dp賦值給DSS的Sa,Sr,Sp;12)DSG的Master獲取所有數(shù)據(jù)服務(wù)器區(qū)域的的信息,并存入數(shù)據(jù)庫(kù),DSG構(gòu)建完畢。
      為了解決上述技術(shù)問(wèn)題,本發(fā)明提供的一種對(duì)于基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)進(jìn)行維護(hù)的方法;
      1)DSG的所有DSS定期地并行執(zhí)行如下規(guī)則①監(jiān)控其所屬的DSN的特征狀態(tài)值Da,Dr,Dp;如果DSN的能力、可信度發(fā)生變化,則動(dòng)態(tài)修正Da,Dr;②如果某DSN的Da,Dr值低于閾值,則收回其DSN資格,遣送到計(jì)算節(jié)點(diǎn)市場(chǎng);③如果計(jì)算節(jié)點(diǎn)市場(chǎng)有新的該圓形區(qū)域的計(jì)算節(jié)點(diǎn)Ci出現(xiàn),并且其所需代價(jià)符合區(qū)域服務(wù)代價(jià),則{如果該圓形數(shù)據(jù)搜索區(qū)域的狀態(tài)為飽滿狀態(tài)或過(guò)強(qiáng)狀態(tài),則用Ci替代其中能力最差、可信度最低的DSN;如果該圓形數(shù)據(jù)搜索區(qū)域的狀態(tài)為薄弱狀態(tài)或無(wú)效狀態(tài),則把Ci作為DSN加入該區(qū)域;}④如果某一圓形數(shù)據(jù)搜索區(qū)域?yàn)檫^(guò)強(qiáng)狀態(tài),則通過(guò)提降低區(qū)域服務(wù)代價(jià)值的方法來(lái)迫使一些DSN回到計(jì)算節(jié)點(diǎn)市場(chǎng);⑤如果某一圓形區(qū)域?yàn)楸∪鯛顟B(tài),則通過(guò)提高區(qū)域服務(wù)代價(jià)值的方法來(lái)吸引計(jì)算節(jié)點(diǎn)市場(chǎng)的節(jié)點(diǎn)作為新的DSN;⑥如果一個(gè)沒(méi)有隸屬數(shù)據(jù)服務(wù)器區(qū)域的無(wú)效狀態(tài)的圓形區(qū)域,變成飽滿、過(guò)強(qiáng)、薄弱的任一狀態(tài),則選其中能力最強(qiáng)的DSN為一個(gè)新數(shù)據(jù)服務(wù)器區(qū)域的DSS;并按NS為規(guī)模限制吸收其網(wǎng)絡(luò)相鄰的無(wú)效圓形數(shù)據(jù)搜索區(qū)域?yàn)樾碌臄?shù)據(jù)服務(wù)器區(qū)域成員;2)DSG的所有DSS定期地對(duì)其所有DSS執(zhí)行同本方法第1)部分所描述的類似的規(guī)則,來(lái)調(diào)整所有DSS(略);3)DSG的擴(kuò)建設(shè)DSG的當(dāng)前最大半徑為2mr+r,并且有n個(gè)圓形數(shù)據(jù)搜索。區(qū)域則如果想擴(kuò)充到半徑為(2m+2)r+r=2(m+1)r+r,則步驟如下①以矩形區(qū)域中心(x,y)為圓心,以2(m+1)r為半徑作一虛圓Circle;
      ②在Circle上,執(zhí)行構(gòu)建DSG方法的第5)步,得到k個(gè)圓形數(shù)據(jù)搜索區(qū)域An+1,An+2,…,An+k,并置這些圓形區(qū)域?yàn)闊o(wú)效狀態(tài);③向計(jì)算節(jié)點(diǎn)市場(chǎng)公布新增加的圓形數(shù)據(jù)搜索區(qū)域An+1,An+2,…,An+k;④啟動(dòng)維護(hù)DSG方法的1)、2),進(jìn)行DSG調(diào)整。
      為了解決上述技術(shù)問(wèn)題,本發(fā)明提供的一種基于數(shù)據(jù)搜索網(wǎng)格的網(wǎng)絡(luò)數(shù)據(jù)搜索算法,步驟如下1)數(shù)據(jù)搜索代理DA,接收來(lái)之用戶的查詢關(guān)鍵字集合KS;2)DA把KS傳給DSG;3)DSG驅(qū)動(dòng)其所有DSS對(duì)KS的搜索;4)所有DSS并發(fā)地驅(qū)動(dòng)其所有DSN完成在各自數(shù)據(jù)搜索區(qū)域內(nèi)對(duì)KS的搜索;5)所有DSS匯集其DSN的搜索結(jié)果,并返回給DSG的Master;Master匯總搜索結(jié)果,并傳給DA;DA傳給用戶;搜索結(jié)束。
      較佳地,上面所述DSG的網(wǎng)絡(luò)數(shù)據(jù)搜索算法的步驟4)中,已知數(shù)據(jù)搜索區(qū)域As有m個(gè)DSNDSN1,DSN2,…,DSNm;n個(gè)被搜索的數(shù)據(jù)源計(jì)算機(jī){DS1,DS2,…,DSn};每個(gè)DSi(1≤i≤n)有一個(gè)搜索標(biāo)志量SMi,其初值為0;如果本次搜索過(guò)程中DSi被任何一個(gè)DSNj(1≤j≤m)第一次搜索到,則標(biāo)志SMi被置為1,其它DSNk(k≠j,1≤k≤m)將不再對(duì)DSi進(jìn)行搜索,當(dāng)所有SMi都為1時(shí),As的本次搜索結(jié)束;算法描述如下①As對(duì)所有DSi(1≤i≤n)的搜索標(biāo)志SMi置為0;②所有DSNj(1≤j≤m)并發(fā)地做③④③置距離變量Distance=1;④DSNj向距離其為Distance的并且SMi為0的DSi發(fā)出搜索請(qǐng)求;置SMi為1;/*第一次搜索到*/對(duì)返回信息進(jìn)行搜索;
      存儲(chǔ)搜索結(jié)果;Distance++;/*距離加1*/如果Distance未超過(guò)As的邊界,則重復(fù)④;如果所有DSi(1≤i≤n)的搜索標(biāo)志SMi都為1,則執(zhí)行⑤;⑤所有DSNj(1≤j≤m)并發(fā)地把搜索結(jié)果傳給它們的DSS;本次搜索結(jié)束。
      本發(fā)明采用的技術(shù)方案具有以下有益效果本發(fā)明為基于互聯(lián)網(wǎng)絡(luò)的網(wǎng)絡(luò)數(shù)據(jù)搜索應(yīng)用提供了一套可行的計(jì)算支持系統(tǒng)和實(shí)現(xiàn)方法。本發(fā)明是利用現(xiàn)有的Internet網(wǎng)絡(luò)、分布在各地的計(jì)算節(jié)點(diǎn)進(jìn)行大規(guī)模并行網(wǎng)絡(luò)數(shù)據(jù)搜索,并且這些計(jì)算資源的結(jié)構(gòu)、軟件系統(tǒng)可以是異構(gòu)的,網(wǎng)絡(luò)互聯(lián)可以是任意技術(shù)的。通過(guò)有效的圓形數(shù)據(jù)搜索區(qū)域覆蓋、合理的數(shù)據(jù)搜索節(jié)點(diǎn)密度、適當(dāng)?shù)腄SS區(qū)域劃分和動(dòng)態(tài)的市場(chǎng)服務(wù)價(jià)格,使該系統(tǒng)支持的大規(guī)模并行網(wǎng)絡(luò)數(shù)據(jù)搜索過(guò)程具有良好的加速比、動(dòng)態(tài)負(fù)載均衡性,同時(shí)該系統(tǒng)還具有良好的擴(kuò)展性,適合internet上的數(shù)據(jù)搜索。本發(fā)明的大規(guī)模數(shù)據(jù)并行型計(jì)算系統(tǒng)是基于上述優(yōu)點(diǎn)的,非常適合在Inetnet上的海量數(shù)據(jù)搜索應(yīng)用,提出了有意義的有價(jià)值的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)地實(shí)現(xiàn)技術(shù)、方法。
      目前基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)還不太多,本發(fā)明提供的一個(gè)基于網(wǎng)格機(jī)制和OGSA體系結(jié)構(gòu)的、通過(guò)對(duì)internet區(qū)域覆蓋,面向網(wǎng)絡(luò)數(shù)據(jù)挖掘的、分布式的、大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)。該系統(tǒng)解決了分布式的、大規(guī)模數(shù)據(jù)搜索機(jī)的管理問(wèn)題,適合互聯(lián)網(wǎng)上的數(shù)據(jù)搜索、數(shù)據(jù)挖掘應(yīng)用。
      本發(fā)明提供一種基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)及其方法能夠完成對(duì)Internet的數(shù)據(jù)搜索,具有良好的可擴(kuò)展性和良好的挖掘效率,其理論依據(jù)可參見(jiàn)本說(shuō)明書中的理論分析部分。


      圖1是本發(fā)明實(shí)施例中構(gòu)成DSG的圓形數(shù)據(jù)搜索區(qū)域、數(shù)據(jù)服務(wù)器區(qū)域?qū)nternet的覆蓋示意圖;其中,100為圓形數(shù)據(jù)搜索區(qū)域,200為矩形區(qū)域,300為同心圓(區(qū)域擴(kuò)展線),400為一個(gè)DSS區(qū)域。
      具體實(shí)施例方式
      以下結(jié)合

      對(duì)本發(fā)明的實(shí)施例作進(jìn)一步詳細(xì)描述,但本實(shí)施例并不用于限制本發(fā)明,凡是采用本發(fā)明的相似結(jié)構(gòu)、方法及其相似變化,均應(yīng)列入本發(fā)明的保護(hù)范圍。
      本發(fā)明提供的一種數(shù)據(jù)搜索網(wǎng)格DSG系統(tǒng)結(jié)構(gòu)按照OGSA規(guī)范,一個(gè)網(wǎng)格就是通過(guò)若干個(gè)網(wǎng)格服務(wù)相互作用的虛擬計(jì)算環(huán)境。而環(huán)境的構(gòu)成部分是動(dòng)態(tài)加入、撤出。網(wǎng)格資源、規(guī)模、處理能力、任務(wù)調(diào)度是自動(dòng)完成。它們?cè)谝欢ㄒ?guī)則集的約束下有機(jī)地生存,網(wǎng)格約束機(jī)制是根據(jù)能力(Ability)、可信任度(Reliability)、服務(wù)代價(jià)(Price)等因素制定的。
      設(shè)定1(數(shù)據(jù)搜索節(jié)點(diǎn))數(shù)據(jù)搜索節(jié)點(diǎn)(Data Searching Node)是一個(gè)六元組DSN(Did,Da,Dr,Dp,Dfunc,Dlib),其中Did為其的標(biāo)幟符;Da為其能力,可根據(jù)DSN的計(jì)算能力、存儲(chǔ)能力、I/O能力、通信能力、搜索算法而定;Dr為其可信度,可以根據(jù)該挖掘節(jié)點(diǎn)的穩(wěn)定生存時(shí)間、成功完成挖掘任務(wù)的比率、網(wǎng)絡(luò)可達(dá)性等運(yùn)用統(tǒng)計(jì)機(jī)制計(jì)算而得;Dp為其服務(wù)代價(jià),即其作為網(wǎng)格成員應(yīng)該獲得的回報(bào);Dfunc為該數(shù)據(jù)搜索節(jié)點(diǎn)的搜索算法集合;Dlib為其局部數(shù)據(jù)庫(kù),用來(lái)緩存數(shù)據(jù)字典、網(wǎng)絡(luò)數(shù)據(jù)搜索的臨時(shí)結(jié)果。
      設(shè)定2(數(shù)據(jù)搜索服務(wù)器)數(shù)據(jù)搜索服務(wù)器(Data Searching Server)是一個(gè)九元組DSS(Sid,Slevel,Sa,Sr,Sp,Sfather,Sson,Sfunc,Slib),其中Sid為其的標(biāo)幟符;Slevel為該服務(wù)器的級(jí)別;Sa為其能力,可根據(jù)DSS的計(jì)算能力、存儲(chǔ)能力、I/O能力、通信能力、搜索算法而定;Sr為其可信度,可以根據(jù)該挖掘節(jié)點(diǎn)的穩(wěn)定生存時(shí)間、成功完成挖掘任務(wù)的比率、網(wǎng)絡(luò)可達(dá)性等運(yùn)用統(tǒng)計(jì)機(jī)制計(jì)算而得;Sp為其服務(wù)代價(jià),即其作為網(wǎng)格成員應(yīng)該獲得的回報(bào);Sfather該服務(wù)器父服務(wù)器的集合(本模型中該域?yàn)榫W(wǎng)格主控制器);Sson為該服務(wù)器所轄的數(shù)據(jù)搜索節(jié)點(diǎn)的集合;Sfunc為其搜索功能部件集合;Slib為其服務(wù)器數(shù)據(jù)庫(kù),用來(lái)緩存數(shù)據(jù)字典、網(wǎng)絡(luò)數(shù)據(jù)搜索的臨時(shí)結(jié)果。
      設(shè)定3(數(shù)據(jù)搜索網(wǎng)格DSG)一個(gè)數(shù)據(jù)搜索網(wǎng)格為四元組DSG(Master,Sdss,Sdsn,Srule),其中Master為網(wǎng)格主控器;Sdss為其所轄數(shù)據(jù)搜索服務(wù)器的集合;Sdsn為其所轄數(shù)據(jù)挖掘節(jié)點(diǎn)的集合;Srule為其邏輯拓?fù)浣Y(jié)構(gòu)規(guī)則。
      設(shè)定4(網(wǎng)絡(luò)跳機(jī)制距離)我們把以網(wǎng)絡(luò)跳數(shù)為度量單位的距離稱作網(wǎng)絡(luò)跳機(jī)制距離。
      設(shè)定5(圓形數(shù)據(jù)搜索區(qū)域)常數(shù)r為網(wǎng)絡(luò)跳機(jī)制距離,在Internet上以任意一個(gè)計(jì)算節(jié)點(diǎn)為圓心,以r為半徑作一個(gè)圓,所得的圓形面積區(qū)域?yàn)橐粋€(gè)圓形數(shù)據(jù)搜索區(qū)域;圓形數(shù)據(jù)搜索區(qū)域內(nèi)的所有被搜索的數(shù)據(jù)源(如web)稱為該區(qū)域的數(shù)據(jù)搜索對(duì)象;r是圓形區(qū)域搜索半徑。
      設(shè)定6(數(shù)據(jù)服務(wù)器區(qū)域)一個(gè)數(shù)據(jù)搜索服務(wù)器DSS所管轄的多個(gè)相鄰的(網(wǎng)絡(luò)相鄰)圓形數(shù)據(jù)搜索區(qū)域構(gòu)成的復(fù)合區(qū)域,稱該服務(wù)器的數(shù)據(jù)服務(wù)器區(qū)域。其規(guī)模由所轄圓形數(shù)據(jù)搜索區(qū)域集合的數(shù)據(jù)業(yè)務(wù)綜合確定。每個(gè)圓形數(shù)據(jù)搜索區(qū)域一定隸屬一個(gè)DSS。
      為了簡(jiǎn)化描述,設(shè)定其規(guī)模為該DSS所轄的圓形數(shù)據(jù)搜索區(qū)域的個(gè)數(shù),并記常數(shù)NS。
      設(shè)定7(數(shù)據(jù)搜索節(jié)點(diǎn)密度)DSG的一個(gè)搜索區(qū)域A,s為A中的DSN的個(gè)數(shù),w為A中的數(shù)據(jù)搜索對(duì)象的數(shù)目,則d=s/w為區(qū)域A的數(shù)據(jù)搜索節(jié)點(diǎn)密度。
      設(shè)定8(計(jì)算節(jié)點(diǎn)的特征向量)為internet上的每個(gè)計(jì)算節(jié)點(diǎn)都設(shè)有一個(gè)記載其能力、可信度和服務(wù)代價(jià)的向量v=(va,vr,vp),稱該計(jì)算節(jié)點(diǎn)的特征向量。
      設(shè)定9(區(qū)域服務(wù)代價(jià)值)在一個(gè)圓形數(shù)據(jù)搜索區(qū)域內(nèi)的所有數(shù)據(jù)搜索節(jié)點(diǎn)都會(huì)得到回報(bào)Repay,用一個(gè)數(shù)值來(lái)表示,稱區(qū)域服務(wù)代價(jià)值。
      設(shè)定10(計(jì)算節(jié)點(diǎn)市場(chǎng))計(jì)算節(jié)點(diǎn)市場(chǎng)是一個(gè)計(jì)算節(jié)點(diǎn)集合,每個(gè)計(jì)算節(jié)點(diǎn)都有自己的特征向量。
      設(shè)定11(數(shù)據(jù)搜索代理DA)在互聯(lián)網(wǎng)的各個(gè)區(qū)域上,介于數(shù)據(jù)搜索用戶和DSG之間、進(jìn)行業(yè)務(wù)關(guān)聯(lián)的網(wǎng)格服務(wù)實(shí)體被稱為數(shù)據(jù)搜索代理。
      數(shù)據(jù)搜索網(wǎng)格DSG結(jié)構(gòu)如圖1所示。圖1中的小圓100為圓形數(shù)據(jù)搜索區(qū)域,圓內(nèi)按著數(shù)據(jù)搜索節(jié)點(diǎn)密度d分布著許多DSN和數(shù)據(jù)搜索對(duì)象;大虛線圓300為同心圓,是DSG區(qū)域擴(kuò)展線;矩形200是被搜索的Internet;虛六邊形400所聯(lián)接圓形數(shù)據(jù)區(qū)域集合(4、15、14)是一個(gè)DSS數(shù)據(jù)服務(wù)器區(qū)域。圖1的DSG由5個(gè)不相交的DSS區(qū)域的集合構(gòu)成。
      本發(fā)明提供的一種數(shù)據(jù)搜索網(wǎng)格DSG的構(gòu)建的方法初始化構(gòu)建數(shù)據(jù)搜索網(wǎng)格DSG的方法,設(shè)在internet的各個(gè)區(qū)域有p個(gè)計(jì)算節(jié)點(diǎn)C1,C2,…,Cp,它們的特征向量分別為v1,v2,…,vp;r為初始數(shù)據(jù)搜索區(qū)域半徑;d為DSG的數(shù)據(jù)搜索節(jié)點(diǎn)密度閾值;方法描述如下(1)根據(jù)網(wǎng)絡(luò)跳為距離單位,計(jì)算p個(gè)計(jì)算節(jié)點(diǎn)的所在區(qū)域邊界,確定該計(jì)算節(jié)點(diǎn)集合的矩形區(qū)域,設(shè)該區(qū)域長(zhǎng)為L(zhǎng),寬為W;取矩形區(qū)域左下角為坐標(biāo)原點(diǎn);(2)計(jì)算矩形區(qū)域的中心(x,y),計(jì)算如下x=(L+2r)/2;y=(W+2r)/2;/*在矩形的四周個(gè)加入一個(gè)寬度為r的帶條*/(3)以(x,y)為圓心、以r為半徑作圓,形成一個(gè)區(qū)域?yàn)锳1;(4)以(x,y)為圓心,以2r為半徑作一個(gè)虛線圓Circle1;置Circle=Circle1;(5)然后在Circle的圓弧線上任取一點(diǎn),以r為半徑作圓,得到區(qū)域A2;同樣重復(fù)在Circle的弧線上作圓,得到一組區(qū)域A3,A4,…,Ak,使A2,A3,A4,…,Ak恰好完全覆蓋Circle的圓弧,并且各個(gè)區(qū)域互不相交;(如圖1中的小圓2、3、4、5、6、7為6個(gè)圓形數(shù)據(jù)搜索區(qū)域,覆蓋了半徑為2r的同心圓擴(kuò)展線)
      (6)同樣以(x,y)為圓心,以4r,6r,8r,…為半徑做同心圓Circle1,Circle2,……;取Circle=Circle2,Cirlce3,……,重復(fù)執(zhí)行(5),直到某個(gè)虛線同心圓覆蓋了矩形區(qū)域?yàn)橹?;得到圓形數(shù)據(jù)搜索區(qū)域序列A1,A2,A3,….,An;(如圖1中的19個(gè)小圓為DSG的圓形數(shù)據(jù)搜索區(qū)域集合);(7)確定計(jì)算節(jié)點(diǎn)C1,C2,…,Cp所在的圓形數(shù)據(jù)搜索區(qū)域,并把它們的特征向量的各個(gè)分量va,vr,vp分別添加到Da,Dr,Dp域;計(jì)算每個(gè)圓形數(shù)據(jù)搜索區(qū)域的數(shù)據(jù)搜索節(jié)點(diǎn)密度;根據(jù)閾值確定各個(gè)圓形數(shù)據(jù)搜索區(qū)域的狀態(tài),設(shè)區(qū)域Ai的實(shí)際數(shù)據(jù)搜索節(jié)點(diǎn)密度為di,圓形區(qū)域Ai的狀態(tài)計(jì)算方法如下IF di/d=0 thenAi為無(wú)效狀態(tài);Else IF 0<di/d<1 ThenAi為薄弱狀態(tài);Else IF di/d>1 ThenAi為過(guò)強(qiáng)狀態(tài);Else IF di/d=1 ThenAi為飽滿狀態(tài);End If;(8)對(duì)每個(gè)圓形數(shù)據(jù)搜索區(qū)域Ai構(gòu)建數(shù)據(jù)搜索節(jié)點(diǎn),設(shè)定其區(qū)域服務(wù)代價(jià),形成n個(gè)數(shù)據(jù)搜索區(qū)域;(9)對(duì)無(wú)效和薄弱狀態(tài)區(qū)域,增加服務(wù)代價(jià)值,以便吸引更多該區(qū)域內(nèi)的閑散的計(jì)算節(jié)點(diǎn)成為該區(qū)域的數(shù)據(jù)搜索節(jié)點(diǎn);(10)對(duì)飽滿狀態(tài)的區(qū)域,適當(dāng)減少服務(wù)代價(jià)值,迫使一些節(jié)點(diǎn)退出數(shù)據(jù)搜索工作;
      (11)通過(guò)網(wǎng)絡(luò)相鄰的多個(gè)數(shù)據(jù)搜索區(qū)域組合構(gòu)成數(shù)據(jù)服務(wù)器區(qū)域,使得每個(gè)數(shù)據(jù)服務(wù)器區(qū)域的規(guī)模不大于NS,這樣{A1,A2,A3,….,An}被劃分成多個(gè)互補(bǔ)相交的子集合,每個(gè)子集合為DSG的一個(gè)DSS區(qū)域(圖1的虛六邊形涉及的圓形區(qū)域?yàn)橐粋€(gè)DSS);在每個(gè)數(shù)據(jù)服務(wù)器區(qū)域的所有數(shù)據(jù)搜索節(jié)點(diǎn)中,取可信度最高、能力最大的數(shù)據(jù)搜索節(jié)點(diǎn)DSN為該數(shù)據(jù)服務(wù)器區(qū)域的數(shù)據(jù)搜索服務(wù)器DSS(Sid,Slevel,Sa,Sr,Sp,Sfather,Sson,Sfunc,Slib),從DSG的Master獲取Sfunc,Slib,并填寫所有參數(shù),并使DSN的Da,Dr,Dp賦值給DSS的Sa,Sr,Sp;(12)DSG的Master獲取所有數(shù)據(jù)服務(wù)器區(qū)域的的信息,并存入數(shù)據(jù)庫(kù),DSG構(gòu)建完畢。
      一種對(duì)于基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)進(jìn)行維護(hù)的方法(1)、2)為DSG動(dòng)態(tài)調(diào)整的方法,3)為DSG擴(kuò)建的方法)1)DSG的所有DSS定期地并行執(zhí)行如下規(guī)則(1)監(jiān)控其所屬的DSN的特征狀態(tài)值Da,Dr,Dp;如果DSN的能力、可信度發(fā)生變化,則動(dòng)態(tài)修正Da,Dr;(2)如果某DSN的Da,Dr值低于閾值,則收回其DSN資格,遣送到計(jì)算節(jié)點(diǎn)市場(chǎng);(3)如果計(jì)算節(jié)點(diǎn)市場(chǎng)有新的該圓形區(qū)域的計(jì)算節(jié)點(diǎn)Ci出現(xiàn),并且其所需代價(jià)符合區(qū)域服務(wù)代價(jià),則{如果該圓形數(shù)據(jù)搜索區(qū)域的狀態(tài)為飽滿狀態(tài)或過(guò)強(qiáng)狀態(tài),則用Ci替代其中能力最差、可信度最低的DSN;如果該圓形數(shù)據(jù)搜索區(qū)域的狀態(tài)為薄弱狀態(tài)或無(wú)效狀態(tài),則把Ci作為DSN加入該區(qū)域;}
      (4)如果某一圓形數(shù)據(jù)搜索區(qū)域?yàn)檫^(guò)強(qiáng)狀態(tài),則通過(guò)提降低區(qū)域服務(wù)代價(jià)值的方法來(lái)迫使一些DSN回到計(jì)算節(jié)點(diǎn)市場(chǎng);(5)如果某一圓形區(qū)域?yàn)楸∪鯛顟B(tài),則通過(guò)提高區(qū)域服務(wù)代價(jià)值的方法來(lái)吸引計(jì)算節(jié)點(diǎn)市場(chǎng)的節(jié)點(diǎn)作為新的DSN;(6)如果一個(gè)沒(méi)有隸屬數(shù)據(jù)服務(wù)器區(qū)域的無(wú)效狀態(tài)的圓形區(qū)域,變成飽滿、過(guò)強(qiáng)、薄弱的任一狀態(tài),則選其中能力最強(qiáng)的DSN為一個(gè)新數(shù)據(jù)服務(wù)器區(qū)域的DSS;并按NS為規(guī)模限制吸收其網(wǎng)絡(luò)相鄰的無(wú)效圓形數(shù)據(jù)搜索區(qū)域?yàn)樾碌臄?shù)據(jù)服務(wù)器區(qū)域成員;2)DSG的所有DSS定期地對(duì)其所有DSS執(zhí)行同本方法第1)部分所描述的類似的規(guī)則,來(lái)調(diào)整所有DSS(略);3)DSG的擴(kuò)建,設(shè)DSG的當(dāng)前最大半徑為2mr+r,并且有n個(gè)圓形數(shù)據(jù)搜索。區(qū)域則如果想擴(kuò)充到半徑為(2m+2)r+r=2(m+1)r+r,則算法如下(1)以矩形區(qū)域中心(x,y)為圓心,以2(m+1)r為半徑作一虛圓Circle;(2)在Circle上,執(zhí)行構(gòu)建DSG的方法的第(5)步,得到k個(gè)圓形數(shù)據(jù)搜索區(qū)域An+1,An+2,…,An+k,并置這些圓形區(qū)域?yàn)闊o(wú)效狀態(tài);(3)向計(jì)算節(jié)點(diǎn)市場(chǎng)公布新增加的圓形數(shù)據(jù)搜索區(qū)域An+1,An+2,…,An+k;(4)啟動(dòng)DSG動(dòng)態(tài)調(diào)整的方法,進(jìn)行DSG調(diào)整。
      本發(fā)明提供的一種數(shù)據(jù)搜索網(wǎng)格DSG的網(wǎng)絡(luò)數(shù)據(jù)搜索算法,描述如下(1)數(shù)據(jù)搜索代理DA,接收來(lái)之用戶的查詢關(guān)鍵字集合KS;(2)DA把KS傳給DSG;(3)DSG驅(qū)動(dòng)其所有DSS對(duì)KS的搜索;(4)所有DSS并發(fā)地驅(qū)動(dòng)其所有DSN完成在各自數(shù)據(jù)搜索區(qū)域內(nèi)對(duì)KS的搜索;
      (5)所有DSS匯集其DSN的搜索結(jié)果,并返回給DSG的Master;Master匯總搜索結(jié)果,并傳給DA;DA傳給用戶;搜索結(jié)束。
      在上面所述DSG的網(wǎng)絡(luò)數(shù)據(jù)搜索算法的步驟(4)(數(shù)據(jù)搜索區(qū)域As的DSN搜索過(guò)程)中已知數(shù)據(jù)搜索區(qū)域As有m個(gè)DSNDSN1,DSN2,…,DSNm;n個(gè)被搜索的數(shù)據(jù)源計(jì)算機(jī){DS1,DS2,…,DSn};每個(gè)DSi(1≤i≤n)有一個(gè)搜索標(biāo)志量SMi,其初值為0;如果本次搜索過(guò)程中DSi被任何一個(gè)DSNj(1≤j≤m)第一次搜索到,則標(biāo)志SMi被置為1,其它DSNk(k≠j,1≤k≤m)將不再對(duì)DSi進(jìn)行搜索,當(dāng)所有SMi都為1時(shí),As的本次搜索結(jié)束。算法描述如下①As對(duì)所有DSi(1≤i≤n)的搜索標(biāo)志SMi置為0;②所有DSNj(1≤j≤m)并發(fā)地做③④③置距離變量Distance=1;④DSNj向距離其為Distance的并且SMi為0的DSi發(fā)出搜索請(qǐng)求;置SMi為1;/*第一次搜索到*/對(duì)返回信息進(jìn)行搜索;存儲(chǔ)搜索結(jié)果;Distance++;/*距離加1*/如果Distance未超過(guò)As的邊界,則重復(fù)④;如果所有DSi(1≤i≤n)的搜索標(biāo)志SMi都為1,則執(zhí)行⑤;⑤所有DSNj(1≤j≤m)并發(fā)地把搜索結(jié)果傳給它們的DSS;本次搜索結(jié)束。
      本發(fā)明提供的一種數(shù)據(jù)搜索網(wǎng)格DSG的一實(shí)施例構(gòu)建了由10臺(tái)PC機(jī)和三個(gè)物理網(wǎng)絡(luò)A、B、C構(gòu)成的三個(gè)DSS區(qū)域來(lái)模擬一個(gè)實(shí)驗(yàn)DSG。A物理網(wǎng)絡(luò)由4臺(tái)pc構(gòu)成,其中一臺(tái)作Master,B、C物理網(wǎng)由三臺(tái)pc構(gòu)成。A物理網(wǎng)絡(luò)由固定IP地址的局域網(wǎng)絡(luò)聯(lián)入Internet,B、C網(wǎng)絡(luò)由FTTB撥號(hào)聯(lián)入Internet。A、B、C分別處于城市的三個(gè)不同的行政區(qū),即A、B、C由WAN連接構(gòu)成。WAN的通信數(shù)度在128K/s~512K/s范圍內(nèi)變化。每個(gè)DSS中的三個(gè)計(jì)算機(jī)都作為DSN運(yùn)行Web Service技術(shù)已經(jīng)成為開(kāi)發(fā)下一代互聯(lián)網(wǎng)絡(luò)的主要技術(shù)之一,其基于服務(wù)的思想恰好與OGSA規(guī)范相吻合。利用JAVA(JAXM1.1.2.)和Web service框架初步實(shí)現(xiàn)了本發(fā)明提供的系統(tǒng)模型框架。
      應(yīng)用一個(gè)免費(fèi)軟件WebTime模擬了全局時(shí)鐘系統(tǒng)GTS,在DSG的每個(gè)DSS和DSN上安裝WebTime完成時(shí)鐘同步軟件。
      實(shí)踐表明,該系統(tǒng)模型可以覆蓋一個(gè)有三個(gè)自然城區(qū)構(gòu)成的互聯(lián)網(wǎng)空間。
      對(duì)本發(fā)明的理論分析定理1DSG能夠完成對(duì)Internet的數(shù)據(jù)搜索。
      證明根據(jù)DSG的構(gòu)建方法的第(1)(2)步,通過(guò)網(wǎng)絡(luò)跳距離機(jī)制,把被收搜索的廣域網(wǎng)絡(luò)形成一個(gè)邏輯矩形區(qū)域。然后以該矩形區(qū)域的中心為圓心,分別以r,2r,4r,…,2mr,…為半徑作同心圓,最大的同心圓將覆蓋矩形區(qū)域(DSG的構(gòu)建方法的(3)(6)步);在DSG的構(gòu)建方法的第(5)步,以這些同心圓的弧線上的點(diǎn)為圓心,以r為半徑構(gòu)造若干個(gè)互不相交,并相鄰互外切的圓形數(shù)據(jù)搜索區(qū)域,這些圓形數(shù)據(jù)搜索區(qū)域覆蓋了矩形區(qū)域(可以對(duì)每個(gè)圓形搜索區(qū)域適當(dāng)擴(kuò)大搜索半徑r+ε(ε為一個(gè)很小的數(shù)值)形成微小重疊)。所以這種區(qū)域劃分方法可以完成DSG對(duì)被搜索區(qū)域的數(shù)據(jù)搜索。根據(jù)DSG擴(kuò)建方法的擴(kuò)充描述,隨著同心圓區(qū)域擴(kuò)展線(圖1虛圓線所示)的無(wú)限擴(kuò)大,擴(kuò)充的圓形搜索區(qū)域?qū)⒏采wInternet,所以說(shuō)DSG可以完成對(duì)Internet的網(wǎng)絡(luò)數(shù)據(jù)搜索。
      定理2DSG具有良好的可擴(kuò)展性。
      證明根據(jù)定理1可知,DSG在基于網(wǎng)絡(luò)跳距離機(jī)制下,通過(guò)擴(kuò)展可以覆蓋Internet。對(duì)每個(gè)圓形數(shù)據(jù)搜索區(qū)域內(nèi),通過(guò)四個(gè)狀態(tài)(無(wú)效、薄弱、飽滿、過(guò)強(qiáng))和網(wǎng)絡(luò)搜索節(jié)點(diǎn)密度來(lái)控制圓形數(shù)據(jù)搜索區(qū)域的規(guī)模;通過(guò)市場(chǎng)代價(jià)機(jī)制,來(lái)調(diào)節(jié)網(wǎng)絡(luò)搜索節(jié)點(diǎn)的密度,使每個(gè)數(shù)據(jù)搜索區(qū)域的挖掘性能與本區(qū)域的被搜索的數(shù)據(jù)量成有效比例,所以不管Internet多大,圓形數(shù)據(jù)搜索區(qū)域確是本地的、性能均衡的;即圓形數(shù)據(jù)搜索區(qū)域僅與自身網(wǎng)絡(luò)臨近的網(wǎng)絡(luò)信息狀況有關(guān),而與其在大同心圓的位置無(wú)關(guān)。
      另一方面,通過(guò)構(gòu)建數(shù)據(jù)服務(wù)器區(qū)域機(jī)制(DSG的構(gòu)建方法的第(11)步和DSG的動(dòng)態(tài)調(diào)整方法的第(6)步),構(gòu)造二級(jí)管理區(qū)域,使DSG具有更好的區(qū)域自治性,而數(shù)據(jù)服務(wù)器區(qū)域可以根據(jù)規(guī)模動(dòng)態(tài)調(diào)整,綜上所述,DSG的挖掘性能僅和圓形數(shù)據(jù)搜索區(qū)域的性能有關(guān),而與它們的個(gè)數(shù)無(wú)關(guān),所以DSG具有良好的可擴(kuò)展性。
      定理3DSG具有良好的挖掘效率。
      證明根據(jù)DSG的搜索算法所述,對(duì)一組關(guān)鍵字集合KS的搜索任務(wù)被并發(fā)地發(fā)送到DSG的不同DSS區(qū)域。各個(gè)DSS又把KS并發(fā)地發(fā)送到其所屬的圓形數(shù)據(jù)搜索區(qū)域,最終是所有覆蓋Internet的圓形數(shù)據(jù)搜索區(qū)域并行的進(jìn)行數(shù)據(jù)搜索。所以在總體機(jī)制上是完全并行的。
      在一個(gè)圓形數(shù)據(jù)搜索區(qū)域As內(nèi),其所有數(shù)據(jù)搜索節(jié)點(diǎn)并行地對(duì)相鄰網(wǎng)絡(luò)資源節(jié)點(diǎn)進(jìn)行搜索。據(jù)DSG的搜索算法步驟(4)所述,通過(guò)搜索標(biāo)志SMi來(lái)保證每個(gè)被搜索站點(diǎn)不被重復(fù)搜索,即As內(nèi)的所有資源站點(diǎn)僅被As的一個(gè)DSN搜索且必須搜索一次。
      所以,DSG具有良好的挖掘效率。
      權(quán)利要求
      1.一種基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),即數(shù)據(jù)搜索網(wǎng)格,其特征在于,所述數(shù)據(jù)搜索網(wǎng)格由數(shù)據(jù)搜索節(jié)點(diǎn)和數(shù)據(jù)搜索服務(wù)器構(gòu)成;所述數(shù)據(jù)搜索節(jié)點(diǎn)是一個(gè)六元組DSN(Did,Da,Dr,Dp,Dfunc,Dlib),其中Did為其的標(biāo)幟符;Da為其能力;Dr為其可信度;Dp為其服務(wù)代價(jià);Dfunc為該數(shù)據(jù)搜索節(jié)點(diǎn)的搜索算法集合;Dlib為其局部數(shù)據(jù)庫(kù);所述數(shù)據(jù)搜索服務(wù)器是一個(gè)九元組DSS(Sid,Slevel,Sa,Sr,Sp,Sfather,Sson,Sfunc,Slib),其中Sid為其的標(biāo)幟符;Slevel為該服務(wù)器的級(jí)別;Sa為其能力;Sr為其可信度;Sp為其服務(wù)代價(jià);Sfather該服務(wù)器父服務(wù)器的集合;Sson為該服務(wù)器所轄的數(shù)據(jù)搜索節(jié)點(diǎn)的集合;Sfunc為其搜索功能部件集合;Slib為其服務(wù)器數(shù)據(jù)庫(kù);所述數(shù)據(jù)搜索網(wǎng)格為一四元組DSG(Master,Sdss,Sdsn,Srule),其中Master為網(wǎng)格主控器;Sdss為其所轄數(shù)據(jù)搜索服務(wù)器的集合;Sdsn為其所轄數(shù)據(jù)挖掘節(jié)點(diǎn)的集合;Srule為其邏輯拓?fù)浣Y(jié)構(gòu)規(guī)則。
      2.根據(jù)權(quán)利要求1所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格通過(guò)圓形數(shù)據(jù)搜索區(qū)域?qū)nternet進(jìn)行覆蓋。
      3.根據(jù)權(quán)利要求2所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格通過(guò)數(shù)據(jù)服務(wù)器區(qū)域?qū)A形數(shù)據(jù)搜索區(qū)域進(jìn)行二級(jí)管理。
      4.根據(jù)權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格基于網(wǎng)絡(luò)搜索節(jié)點(diǎn)密度的度量因數(shù)的自動(dòng)約束規(guī)則。
      5.根據(jù)權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格基于計(jì)算節(jié)點(diǎn)特征向量的度量因數(shù)的自動(dòng)約束規(guī)則。
      6.根據(jù)權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格基于區(qū)域服務(wù)代價(jià)值的度量因數(shù)的自動(dòng)約束規(guī)則。
      7.根據(jù)權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格基于計(jì)算節(jié)點(diǎn)市場(chǎng)的度量因數(shù)的自動(dòng)約束規(guī)則。
      8.根據(jù)權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng),其特征是,所述數(shù)據(jù)搜索網(wǎng)格基于數(shù)據(jù)搜索代理DA的度量因數(shù)的自動(dòng)約束規(guī)則。
      9.一種構(gòu)建權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)的方法,設(shè)在internet的各個(gè)區(qū)域有p個(gè)計(jì)算節(jié)點(diǎn)C1,C2,…,Cp,它們的特征向量分別為v1,v2,…,vp;r為初始數(shù)據(jù)搜索區(qū)域半徑;d為DSG的數(shù)據(jù)搜索節(jié)點(diǎn)密度閾值;其特征是,該方法的步驟如下1)根據(jù)網(wǎng)絡(luò)跳為距離單位,計(jì)算p個(gè)計(jì)算節(jié)點(diǎn)的所在區(qū)域邊界,確定該計(jì)算節(jié)點(diǎn)集合的矩形區(qū)域,設(shè)該區(qū)域長(zhǎng)為L(zhǎng),寬為W;取矩形區(qū)域左下角為坐標(biāo)原點(diǎn);2)計(jì)算矩形區(qū)域的中心(x,y),計(jì)算如下x=(L+2r)/2;y=(W+2r)/2;/*在矩形的四周個(gè)加入一個(gè)寬度為r的帶條*/3)以(x,y)為圓心、以r為半徑作圓,形成一個(gè)區(qū)域?yàn)锳1;4)以(x,y)為圓心,以2r為半徑作一個(gè)虛線圓Circle1;置Circle=Circle1;5)然后在Circle的圓弧線上任取一點(diǎn),以r為半徑作圓,得到區(qū)域A2;同樣重復(fù)在Circle的弧線上作圓,得到一組區(qū)域A3,A4,…,Ak,使A2,A3,A4,…,Ak恰好完全覆蓋Circle的圓弧,并且各個(gè)區(qū)域互不相交;6)同樣以(x,y)為圓心,以4r,6r,8r,…為半徑做同心圓Circle1,Circle2,……;取Circle=Circle2,Cirlce3,……,重復(fù)執(zhí)行5),直到某個(gè)虛線同心圓覆蓋了矩形區(qū)域?yàn)橹?;得到圓形數(shù)據(jù)搜索區(qū)域序列A1,A2,A3,….,An;7)確定計(jì)算節(jié)點(diǎn)C1,C2,…,Cp所在的圓形數(shù)據(jù)搜索區(qū)域,并把它們的特征向量的各個(gè)分量va,vr,vp分別添加到Da,Dr,Dp域;計(jì)算每個(gè)圓形數(shù)據(jù)搜索區(qū)域的數(shù)據(jù)搜索節(jié)點(diǎn)密度;根據(jù)閾值確定各個(gè)圓形數(shù)據(jù)搜索區(qū)域的狀態(tài),設(shè)區(qū)域Ai的實(shí)際數(shù)據(jù)搜索節(jié)點(diǎn)密度為di,圓形區(qū)域Ai的狀態(tài)計(jì)算方法如下IF di/d=0 thenAi為無(wú)效狀態(tài);Else IF 0<di/d<1 ThenAi為薄弱狀態(tài);Else IF di/d>1 ThenAi為過(guò)強(qiáng)狀態(tài);Else IF di/d=1 ThenAi為飽滿狀態(tài);End If;8)對(duì)每個(gè)圓形數(shù)據(jù)搜索區(qū)域Ai構(gòu)建數(shù)據(jù)搜索節(jié)點(diǎn),設(shè)定其區(qū)域服務(wù)代價(jià),形成n個(gè)數(shù)據(jù)搜索區(qū)域;9)對(duì)無(wú)效和薄弱狀態(tài)區(qū)域,增加服務(wù)代價(jià)值,以便吸引更多該區(qū)域內(nèi)的閑散的計(jì)算節(jié)點(diǎn)成為該區(qū)域的數(shù)據(jù)搜索節(jié)點(diǎn);10)對(duì)飽滿狀態(tài)的區(qū)域,適當(dāng)減少服務(wù)代價(jià)值,迫使一些節(jié)點(diǎn)退出數(shù)據(jù)搜索工作;11)通過(guò)網(wǎng)絡(luò)相鄰的多個(gè)數(shù)據(jù)搜索區(qū)域組合構(gòu)成數(shù)據(jù)服務(wù)器區(qū)域,使得每個(gè)數(shù)據(jù)服務(wù)器區(qū)域的規(guī)模不大于NS,這樣{A1,A2,A3,….,An}被劃分成多個(gè)互補(bǔ)相交的子集合,每個(gè)子集合為DSG的一個(gè)DSS區(qū)域;在每個(gè)數(shù)據(jù)服務(wù)器區(qū)域的所有數(shù)據(jù)搜索節(jié)點(diǎn)中,取可信度最高、能力最大的數(shù)據(jù)搜索節(jié)點(diǎn)DSN為該數(shù)據(jù)服務(wù)器區(qū)域的數(shù)據(jù)搜索服務(wù)器DSS(Sid,Slevel,Sa,Sr,Sp,Sfather,Sson,Sfunc,Slib),從DSG的Master獲取Sfunc,Slib,并填寫所有參數(shù),并使DSN的Da,Dr,Dp賦值給DSS的Sa,Sr,Sp;12)DSG的Master獲取所有數(shù)據(jù)服務(wù)器區(qū)域的的信息,并存入數(shù)據(jù)庫(kù),DSG構(gòu)建完畢。
      10.一種對(duì)于權(quán)利要求3所述的基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)進(jìn)行維護(hù)的方法,其特征是,該方法的步驟如下1)DSG的所有DSS定期地并行執(zhí)行如下規(guī)則①監(jiān)控其所屬的DSN的特征狀態(tài)值Da,Dr,Dp;如果DSN的能力、可信度發(fā)生變化,則動(dòng)態(tài)修正Da,Dr;②如果某DSN的Da,Dr值低于閾值,則收回其DSN資格,遣送到計(jì)算節(jié)點(diǎn)市場(chǎng);③如果計(jì)算節(jié)點(diǎn)市場(chǎng)有新的該圓形區(qū)域的計(jì)算節(jié)點(diǎn)Ci出現(xiàn),并且其所需代價(jià)符合區(qū)域服務(wù)代價(jià),則{如果該圓形數(shù)據(jù)搜索區(qū)域的狀態(tài)為飽滿狀態(tài)或過(guò)強(qiáng)狀態(tài),則用Ci替代其中能力最差、可信度最低的DSN;如果該圓形數(shù)據(jù)搜索區(qū)域的狀態(tài)為薄弱狀態(tài)或無(wú)效狀態(tài),則把Ci作為DSN加入該區(qū)域;}④如果某一圓形數(shù)據(jù)搜索區(qū)域?yàn)檫^(guò)強(qiáng)狀態(tài),則通過(guò)提降低區(qū)域服務(wù)代價(jià)值的方法來(lái)迫使一些DSN回到計(jì)算節(jié)點(diǎn)市場(chǎng);⑤如果某一圓形區(qū)域?yàn)楸∪鯛顟B(tài),則通過(guò)提高區(qū)域服務(wù)代價(jià)值的方法來(lái)吸引計(jì)算節(jié)點(diǎn)市場(chǎng)的節(jié)點(diǎn)作為新的DSN;⑥如果一個(gè)沒(méi)有隸屬數(shù)據(jù)服務(wù)器區(qū)域的無(wú)效狀態(tài)的圓形區(qū)域,變成飽滿、過(guò)強(qiáng)、薄弱的任一狀態(tài),則選其中能力最強(qiáng)的DSN為一個(gè)新數(shù)據(jù)服務(wù)器區(qū)域的DSS;并按NS為規(guī)模限制吸收其網(wǎng)絡(luò)相鄰的無(wú)效圓形數(shù)據(jù)搜索區(qū)域?yàn)樾碌臄?shù)據(jù)服務(wù)器區(qū)域成員;2)DSG的所有DSS定期地對(duì)其所有DSS執(zhí)行同本方法第1)部分所描述的類似的規(guī)則,來(lái)調(diào)整所有DSS;3)DSG的擴(kuò)建設(shè)DSG的當(dāng)前最大半徑為2mr+r,并且有n個(gè)圓形數(shù)據(jù)搜索;區(qū)域則如果想擴(kuò)充到半徑為(2m+2)r+r=2(m+1)r+r,則步驟如下①以矩形區(qū)域中心(x,y)為圓心,以2(m+1)r為半徑作一虛圓Circle;②在Circle上,執(zhí)行構(gòu)建DSG方法的第5)步,得到k個(gè)圓形數(shù)據(jù)搜索區(qū)域An+1,An+2,…,An+k,并置這些圓形區(qū)域?yàn)闊o(wú)效狀態(tài);③向計(jì)算節(jié)點(diǎn)市場(chǎng)公布新增加的圓形數(shù)據(jù)搜索區(qū)域An+1,An+2,…,An+k;④啟動(dòng)維護(hù)DSG方法的1)、2),進(jìn)行DSG調(diào)整。
      11.一種對(duì)于權(quán)利要求3所述的基于數(shù)據(jù)搜索網(wǎng)格的網(wǎng)絡(luò)數(shù)據(jù)搜索算法,其特征是,算法步驟如下1)數(shù)據(jù)搜索代理DA,接收來(lái)之用戶的查詢關(guān)鍵字集合KS;2)DA把KS傳給DSG;3)DSG驅(qū)動(dòng)其所有DSS對(duì)KS的搜索;4)所有DSS并發(fā)地驅(qū)動(dòng)其所有DSN完成在各自數(shù)據(jù)搜索區(qū)域內(nèi)對(duì)KS的搜索;5)所有DSS匯集其DSN的搜索結(jié)果,并返回給DSG的Master;Master匯總搜索結(jié)果,并傳給DA;DA傳給用戶;搜索結(jié)束。
      12.根據(jù)權(quán)利要求11所述的基于數(shù)據(jù)搜索網(wǎng)格的網(wǎng)絡(luò)數(shù)據(jù)搜索算法,其特征是,所述步驟4)中,已知數(shù)據(jù)搜索區(qū)域As有m個(gè)DSNDSN1,DSN2,…,DSNm;n個(gè)被搜索的數(shù)據(jù)源計(jì)算機(jī){DS1,DS2,…,DSn};每個(gè)DSi(1≤i≤n)有一個(gè)搜索標(biāo)志量SMi,其初值為0;如果本次搜索過(guò)程中DSi被任何一個(gè)DSNj(1≤j≤m)第一次搜索到,則標(biāo)志SMi被置為1,其它DSNk(k≠j,1≤k≤m)將不再對(duì)DSi進(jìn)行搜索,當(dāng)所有SMi都為1時(shí),As的本次搜索結(jié)束;算法描述如下①As對(duì)所有DSi(1≤i≤n)的搜索標(biāo)志SMi置為0;②所有DSNj(1≤j≤m)并發(fā)地做③④③置距離變量Distance=1;④DSNj向距離其為Distance的并且SMi為0的DSi發(fā)出搜索請(qǐng)求;置SMi為1;/*第一次搜索到*/對(duì)返回信息進(jìn)行搜索;存儲(chǔ)搜索結(jié)果;Distance++;/*距離加1*/如果Distance未超過(guò)AS的邊界,則重復(fù)④;如果所有DSi(1≤i≤n)的搜索標(biāo)志SMi都為1,則執(zhí)行⑤;⑤所有NSNj(1≤j≤m)并發(fā)地把搜索結(jié)果傳給它們的DSS;本次搜索結(jié)束。
      全文摘要
      一個(gè)在Internet環(huán)境下基于網(wǎng)格機(jī)制的網(wǎng)絡(luò)數(shù)據(jù)搜索系統(tǒng)結(jié)構(gòu)、構(gòu)建方法及網(wǎng)絡(luò)數(shù)據(jù)搜索過(guò)程。該系統(tǒng)通過(guò)數(shù)據(jù)搜索節(jié)點(diǎn)、數(shù)據(jù)搜索服務(wù)器等部件構(gòu)成,通過(guò)圓形數(shù)據(jù)搜索區(qū)、數(shù)據(jù)服務(wù)器區(qū)域?qū)nternet進(jìn)行覆蓋,運(yùn)用網(wǎng)格二級(jí)區(qū)域劃分管理機(jī)制,利用計(jì)算節(jié)點(diǎn)的能力、可信度、服務(wù)代價(jià)等因素和市場(chǎng)競(jìng)爭(zhēng)模式動(dòng)態(tài)等規(guī)則進(jìn)行約束。該系統(tǒng)通過(guò)基于OGSA規(guī)范的網(wǎng)格機(jī)制進(jìn)行管理、對(duì)外服務(wù)。系統(tǒng)通過(guò)完全并行搜索方式運(yùn)行(1)多個(gè)圓形數(shù)據(jù)搜索區(qū)域同時(shí)并行搜索;(2)在一個(gè)圓形數(shù)據(jù)搜索區(qū)域內(nèi)多個(gè)數(shù)據(jù)搜索機(jī)并發(fā)搜索,并且每個(gè)被搜索的數(shù)據(jù)對(duì)象(如WEB)僅被搜索一次,大大提高了搜索效率;該系統(tǒng)具有良好的擴(kuò)展性、并發(fā)性和較高的效率。
      文檔編號(hào)G06F17/30GK1758242SQ20051002886
      公開(kāi)日2006年4月12日 申請(qǐng)日期2005年8月17日 優(yōu)先權(quán)日2005年8月17日
      發(fā)明者陳慶奎, 那麗春 申請(qǐng)人:上海理工大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1