国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法和裝置的制作方法

      文檔序號(hào):6466247閱讀:160來源:國(guó)知局
      專利名稱:網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域語(yǔ)義網(wǎng)絡(luò)分支,具體涉及一種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方 法,適用于網(wǎng)絡(luò)信息提取、全文搜索和語(yǔ)義搜索、商業(yè)情報(bào)挖掘、信息聚合、網(wǎng)絡(luò)知識(shí)庫(kù)建 立等應(yīng)用領(lǐng)域。
      背景技術(shù)
      隨著Internet和Web的長(zhǎng)足發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長(zhǎng),人們除了從傳統(tǒng)媒介上 獲取知識(shí)和信息以外,越來越習(xí)慣于在網(wǎng)絡(luò)上尋求幫助,全文搜索技術(shù)實(shí)現(xiàn)了人們檢索網(wǎng)絡(luò) 信息的愿望,只要輸入幾個(gè)關(guān)鍵字,就可以迅速地獲得含有這幾個(gè)關(guān)鍵字的信息。然而,即 使有了搜索工具,人們還是感受到自己慢慢地在網(wǎng)絡(luò)信息海洋中迷失了方向,找到自己關(guān)心 的信息和知識(shí)變得越來越困難,因?yàn)樵馐茉絹碓蕉嗟牟幌喔傻脑胍粜畔⑺蓴_,這些信息包 含査找的關(guān)鍵字,但是內(nèi)容是不相干的。人們希望出現(xiàn)一種智能工具,根據(jù)用戶的意愿幫助 人們擯除噪音,篩選出真正需要的信息來。自計(jì)算機(jī)發(fā)明以來,社會(huì)生產(chǎn)力大大提高,它將 人類從單調(diào)的繁雜的程式化的勞動(dòng)中解放出來,使人們專注于創(chuàng)造性的活動(dòng),網(wǎng)絡(luò)信息搜索 也是由計(jì)算機(jī)承擔(dān)的,因此,人們自然而然的想到改進(jìn)計(jì)算機(jī)算法,使其變成人們的智能信 息助理。
      人工智能的研究有著悠久的歷史,甚至在計(jì)算機(jī)出現(xiàn)之前,人們就在嘗試人造的智能活 動(dòng)。用人工智能幫助人們?cè)诰W(wǎng)絡(luò)上尋找目標(biāo)信息是最理想的方法,人只有一個(gè)大腦用于思考, 如果有了很多人造大腦在網(wǎng)絡(luò)上進(jìn)行思考并篩選信息,顯然效率和效能是倍增的。然而從學(xué) 術(shù)性的和技術(shù)性的實(shí)驗(yàn)結(jié)果推測(cè),實(shí)現(xiàn)這種理想愿望還比較遙遠(yuǎn)。
      實(shí)際上,計(jì)算機(jī)對(duì)信息的處理并不局限于知識(shí)理解,例如,數(shù)據(jù)庫(kù)技術(shù)發(fā)展到今天已經(jīng) 相當(dāng)成熟了,幾乎應(yīng)用于現(xiàn)代所有的生產(chǎn)活動(dòng)中。從表面上看,數(shù)據(jù)庫(kù)具有相當(dāng)高的智能, 例如,在數(shù)據(jù)庫(kù)表中存了一串?dāng)?shù)字,數(shù)據(jù)庫(kù)系統(tǒng)知道這串?dāng)?shù)字是一個(gè)電話號(hào)碼,它就不會(huì)當(dāng) 成日期或者商品數(shù)量進(jìn)行處理,看起來它理解了這串?dāng)?shù)字的含義。從深層次的技術(shù)實(shí)現(xiàn)角度 看,它是從數(shù)據(jù)庫(kù)中的語(yǔ)義結(jié)構(gòu)信息(即數(shù)據(jù)庫(kù)的Schema)中獲得了指示,它并不是像人 類思維一樣根據(jù)語(yǔ)義環(huán)境將這串?dāng)?shù)字理解成電話號(hào)碼,而是數(shù)據(jù)庫(kù)Schema規(guī)定它這樣使用 的。由此可見語(yǔ)義結(jié)構(gòu)在信息處理領(lǐng)域的重要性,可以想象如果網(wǎng)絡(luò)頁(yè)面上有語(yǔ)義結(jié)構(gòu)信息,即使計(jì)算機(jī)不知道一串號(hào)碼能夠干什么,當(dāng)用戶搜索電話號(hào)碼時(shí)搜索系統(tǒng)不會(huì)塞給用戶一堆 商品統(tǒng)計(jì)數(shù)量。
      但是,現(xiàn)有網(wǎng)絡(luò)上的絕大多數(shù)信息是呈現(xiàn)給人們閱讀的,傳送到用戶終端上的信息是使 用HTML排版的,里面絕大多數(shù)是排版信息(跟排版有關(guān)的語(yǔ)義),卻少有關(guān)于內(nèi)容的語(yǔ)義 信息。就像專家總結(jié)的對(duì)于內(nèi)容語(yǔ)義而言,現(xiàn)有的網(wǎng)絡(luò)信息是無結(jié)構(gòu)的或者是弱結(jié)構(gòu)的。 可見,如果把這些信息的有關(guān)內(nèi)容的語(yǔ)義結(jié)構(gòu)識(shí)別和提取出來,現(xiàn)有的Web就變成了一個(gè)巨 大的數(shù)據(jù)庫(kù),它至少能夠分清一串?dāng)?shù)字是電話號(hào)碼還是商品數(shù)量。然而,網(wǎng)絡(luò)不像一個(gè)單一 的商業(yè)數(shù)據(jù)庫(kù),它為人類生活方方面面提供服務(wù),因此,為現(xiàn)有的網(wǎng)絡(luò)信息建立語(yǔ)義結(jié)構(gòu)不 是一蹴而就的事, 一種解決方案是人們各自將感興趣的領(lǐng)域的語(yǔ)義結(jié)構(gòu)定義出來, 一開始這 些領(lǐng)域語(yǔ)義結(jié)構(gòu)之間是不相通的孤島,隨著語(yǔ)義結(jié)構(gòu)的延展和生長(zhǎng),孤島將逐漸打通,形成 一張所謂的語(yǔ)義網(wǎng)絡(luò),理想情況下,這張網(wǎng)絡(luò)覆蓋了網(wǎng)絡(luò)信息內(nèi)容的所有語(yǔ)義范圍。
      本發(fā)明公開了一種方法和裝置,它能夠使所有熱衷于網(wǎng)絡(luò)語(yǔ)義結(jié)構(gòu)定義和知識(shí)整理的人 們投入到語(yǔ)義網(wǎng)絡(luò)的建設(shè)中來,本發(fā)明定義和識(shí)別出的網(wǎng)絡(luò)頁(yè)面信息的語(yǔ)義結(jié)構(gòu)可以被信息 提取、全文搜索和語(yǔ)義搜索、商業(yè)情報(bào)挖掘、信息聚合、網(wǎng)絡(luò)知識(shí)庫(kù)等系統(tǒng)使用,為用戶生 成更準(zhǔn)確的結(jié)果信息。

      發(fā)明內(nèi)容
      本發(fā)明公開了一種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法和裝置,根據(jù)本發(fā)明的一個(gè)方面,提供了 一種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法,所述語(yǔ)義結(jié)構(gòu)包括網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的多個(gè)語(yǔ)義相關(guān)的語(yǔ) 義注解、被注解的信息的屬性、語(yǔ)義注解之間的關(guān)系,其特征在于,所述方法包括以下步驟
      (1)定義樣本頁(yè)面的所述語(yǔ)義結(jié)構(gòu),在系統(tǒng)內(nèi)部存儲(chǔ)成語(yǔ)義結(jié)構(gòu)樹;
      (2 )生成語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令;
      (3) 驗(yàn)證語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令的有效性;
      (4) 將語(yǔ)義結(jié)構(gòu)描述文件和語(yǔ)義樹識(shí)別指令文件和語(yǔ)義樹合法性識(shí)別文件存儲(chǔ)到外存 儲(chǔ)器。
      根據(jù)本發(fā)明的另一個(gè)方面,提供了一種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別的裝置,所述語(yǔ)義結(jié)構(gòu)包 括網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的多個(gè)語(yǔ)義相關(guān)的語(yǔ)義注解、被注解的信息的屬性、語(yǔ)義注解之間的關(guān)
      系,其特征在于,所述裝置包括
      5語(yǔ)義結(jié)構(gòu)編輯單元,用于創(chuàng)建和編輯所述語(yǔ)義結(jié)構(gòu)樹;
      樣本語(yǔ)義信息塊拾取單元,用于選取樣本頁(yè)面上的樣本信息塊,為每個(gè)樣本語(yǔ)義信息塊 建立信息內(nèi)容與所述語(yǔ)義結(jié)構(gòu)樹中的節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系;
      語(yǔ)義結(jié)構(gòu)識(shí)別指令生成單元,用于計(jì)算樣本語(yǔ)義信息塊的位置和重現(xiàn)參數(shù),產(chǎn)生所述語(yǔ) 義樹識(shí)別指令和所述語(yǔ)義樹合法性識(shí)別指令;
      語(yǔ)義樹識(shí)別驗(yàn)證單元,用于驗(yàn)證識(shí)別出來的語(yǔ)義信息塊是否符合所述語(yǔ)義樹的形狀特征 和所述語(yǔ)義樹節(jié)點(diǎn)的屬性要求;
      指令文件和語(yǔ)義結(jié)構(gòu)文件讀寫管理單元,用于將內(nèi)存中的所述語(yǔ)義樹識(shí)別指令和所述語(yǔ) 義樹合法性識(shí)別指令和所述語(yǔ)義結(jié)構(gòu)樹組織成文件,存儲(chǔ)到所述外存儲(chǔ)器上。


      圖1展示了一個(gè)語(yǔ)義結(jié)構(gòu)樹的例子,圖1A是樣本語(yǔ)義信息塊示意圖,圖1B是對(duì)應(yīng)的語(yǔ) 義結(jié)構(gòu)樹
      圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法的流程圖 圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的生成語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令的方法 的流程圖
      圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別裝置的分解圖
      具體實(shí)施例方式
      下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
      網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法
      在網(wǎng)絡(luò)頁(yè)面上,充斥很多與頁(yè)面主題內(nèi)容不相關(guān)的信息,例如,廣告等,有用的信息和 知識(shí)只存在于頁(yè)面的某些區(qū)域中,在下文中,我們稱這些區(qū)域?yàn)檎Z(yǔ)義信息塊。 一般在一個(gè)頁(yè) 面上有很多語(yǔ)義信息塊,而且其語(yǔ)義結(jié)構(gòu)可能不同,分別表達(dá)不同的含義,例如圖1A,在博 客頁(yè)面的某個(gè)區(qū)域的一組信息表達(dá)博主個(gè)人資料,它具有語(yǔ)義結(jié)構(gòu)A;在另外一個(gè)區(qū)域是博 主發(fā)表的一系列博文,有n個(gè)語(yǔ)義信息塊,它們具有語(yǔ)義結(jié)構(gòu)B,本發(fā)明的優(yōu)選實(shí)施例能夠 準(zhǔn)確全面地將符合語(yǔ)義結(jié)構(gòu)A和語(yǔ)義結(jié)構(gòu)B的語(yǔ)義信息塊識(shí)別出來,并輸出語(yǔ)義樹識(shí)別指令文件和語(yǔ)義樹合法性識(shí)別指令文件,這些文件可以指導(dǎo)其他系統(tǒng)提取出有語(yǔ)義結(jié)構(gòu)的信息。
      圖IB是針對(duì)這個(gè)樣本頁(yè)面創(chuàng)建的兩個(gè)語(yǔ)義結(jié)構(gòu)樹,語(yǔ)義樹是多叉多層樹,每個(gè)節(jié)點(diǎn)附 帶一組屬性值,對(duì)節(jié)點(diǎn)代表的語(yǔ)義進(jìn)行修飾,本發(fā)明的優(yōu)選實(shí)施例可以對(duì)節(jié)點(diǎn)的取值類型、 取值范圍、語(yǔ)義類型進(jìn)行修飾,節(jié)點(diǎn)之間的邊代表了相互關(guān)系。因?yàn)椴┲髻Y料只有一個(gè)語(yǔ)義 信息塊,使用這個(gè)唯一的語(yǔ)義信息塊建立與語(yǔ)義結(jié)構(gòu)樹的對(duì)應(yīng)關(guān)系,而博文有多個(gè)語(yǔ)義信息 塊,需要選擇至少兩個(gè)樣本信息塊,具體選擇幾個(gè),需要考慮目標(biāo)頁(yè)面的布局,跟語(yǔ)義信息 塊分布的維度有關(guān)。
      圖2是根據(jù)本發(fā)明的優(yōu)選實(shí)施例的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法的流程圖。首先在步驟 201,用戶使用本發(fā)明的優(yōu)選實(shí)施例中內(nèi)嵌的瀏覽器加載樣本網(wǎng)絡(luò)頁(yè)面,為頁(yè)面內(nèi)容定義語(yǔ)義 結(jié)構(gòu),包括網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的語(yǔ)義注解、被注解的信息的屬性、語(yǔ)義注解之間的關(guān)系。語(yǔ) 義結(jié)構(gòu)用樹狀結(jié)構(gòu)展現(xiàn),樹節(jié)點(diǎn)代表信息內(nèi)容的語(yǔ)義注解,用一個(gè)字符串給語(yǔ)義注解命名, 樹節(jié)點(diǎn)之間的邊表示語(yǔ)義關(guān)系,語(yǔ)義結(jié)構(gòu)樹存儲(chǔ)在內(nèi)存中(208)。
      接著在步驟202,用戶在樣本頁(yè)面上選擇樣本語(yǔ)義信息塊,選擇的樣本信息塊的數(shù)量跟 語(yǔ)義信息塊分布的維度有關(guān),例如,如果在頁(yè)面上只有一欄,語(yǔ)義信息塊從上到下順序排放, 則只有一個(gè)維度,選擇兩個(gè)上下相鄰的語(yǔ)義信息塊即可,圖1A所示的博文的語(yǔ)義信息塊的 分布就屬于這種情況;如果頁(yè)面上橫向有多欄,每一欄內(nèi)語(yǔ)義信息塊按相同的規(guī)則從上到下 順序排放,則有兩個(gè)維度,選擇三個(gè)語(yǔ)義信息塊,兩兩上下相鄰和左右相鄰。
      接著在步驟203,用戶使用本發(fā)明的優(yōu)選實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容拾取工具,建立所拾取 的信息內(nèi)容與所定義語(yǔ)義結(jié)構(gòu)樹各節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系。
      接著在步驟204,提取出樣本信息樹的位置參數(shù)、形狀特征參數(shù),產(chǎn)生所述語(yǔ)義結(jié)構(gòu)樹 的識(shí)別計(jì)算公式,并轉(zhuǎn)換成語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令,存儲(chǔ)在內(nèi)存中(209), 詳細(xì)方法步驟如圖3所示。
      接著在步驟205,使用步驟204生成的語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令,在目 標(biāo)頁(yè)面上識(shí)別符合所定義語(yǔ)義結(jié)構(gòu)的信息塊,驗(yàn)證識(shí)別指令的有效性。首先使用系統(tǒng)內(nèi)置的 標(biāo)準(zhǔn)的XSLT引擎針對(duì)樣本頁(yè)面運(yùn)行XSLT語(yǔ)義樹識(shí)別指令,檢驗(yàn)識(shí)別出來的語(yǔ)義信息塊是 否覆蓋了目標(biāo)頁(yè)面上的符合定義的語(yǔ)義結(jié)構(gòu)的所有語(yǔ)義信息塊,同時(shí)檢驗(yàn)每個(gè)識(shí)別出來的語(yǔ) 義信息塊中的語(yǔ)義信息內(nèi)容是否準(zhǔn)確,是否將頁(yè)面上的不相干信息提取了出來,或者是否將 需要的語(yǔ)義信息內(nèi)容遺漏了;然后使用系統(tǒng)內(nèi)置的XML引擎針對(duì)識(shí)別出來的語(yǔ)義結(jié)構(gòu)樹實(shí) 例運(yùn)行語(yǔ)義樹合法性識(shí)別指令,檢驗(yàn)是否符合定義的所述語(yǔ)義結(jié)構(gòu),本發(fā)明優(yōu)選實(shí)施例將檢驗(yàn)語(yǔ)義信息塊中的語(yǔ)義信息內(nèi)容是否符合定義的語(yǔ)義樹結(jié)構(gòu)的節(jié)點(diǎn)屬性要求,是否具有相同 的樹形狀。如果沒有完全覆蓋所有的語(yǔ)義信息塊,或者從提取到的語(yǔ)義信息內(nèi)容不符合語(yǔ)義 樹節(jié)點(diǎn)屬性的定義,或者識(shí)別出來的信息塊與語(yǔ)義樹形狀不相符,將提示用戶重新選擇樣本 語(yǔ)義信息塊,返回到步驟202;如果識(shí)別指令經(jīng)驗(yàn)證是有效的,進(jìn)行下一步。
      接著在步驟207,將內(nèi)存中的語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令和語(yǔ)義結(jié)構(gòu)組織 成文件,存儲(chǔ)到外存儲(chǔ)器中。
      圖3是根據(jù)本發(fā)明的優(yōu)選實(shí)施例的生成語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令的方法 的流程圖,是圖2的步驟204的詳細(xì)分解。語(yǔ)義結(jié)構(gòu)識(shí)別操作是針對(duì)網(wǎng)絡(luò)頁(yè)面DOM數(shù)據(jù)結(jié) 構(gòu)進(jìn)行的。DOM是文檔對(duì)象模型(Document Object Model)的簡(jiǎn)寫, 一個(gè)網(wǎng)絡(luò)頁(yè)面在呈現(xiàn)給 用戶閱讀時(shí),網(wǎng)絡(luò)頁(yè)面內(nèi)容存儲(chǔ)在DOM數(shù)據(jù)結(jié)構(gòu)中,是一個(gè)樹狀結(jié)構(gòu),本發(fā)明的優(yōu)選實(shí)施 例對(duì)DOM結(jié)構(gòu)進(jìn)行讀取,獲得各種信息,包括DOM節(jié)點(diǎn)的內(nèi)容、節(jié)點(diǎn)的特性以及節(jié)點(diǎn)之 間的父子和兄弟關(guān)系等。本發(fā)明的優(yōu)選實(shí)施例選取的樣本語(yǔ)義信息塊是一棵DOM子樹,所 述樣本信息樹是對(duì)樣本信息塊子樹進(jìn)行修剪后產(chǎn)生的跟所定義的語(yǔ)義結(jié)構(gòu)樹形狀相同的信息 存儲(chǔ)樹,同時(shí)還包含關(guān)于樹特征的元數(shù)據(jù)。
      首先在步驟301,依照步驟201所定義的語(yǔ)義結(jié)構(gòu)樹,對(duì)每個(gè)樣本語(yǔ)義信息塊的信息存 儲(chǔ)樹進(jìn)行修剪,去除不相關(guān)信息,保留符合所定義語(yǔ)義結(jié)構(gòu)的信息,產(chǎn)生樣本信息樹,所有 樣本信息樹存儲(chǔ)在一個(gè)集合中。在本發(fā)明的優(yōu)選實(shí)施例中,樣本信息樹包含的關(guān)于樹特征的
      元數(shù)據(jù)有
      1. 每個(gè)語(yǔ)義信息節(jié)點(diǎn)的訪問路徑,使用經(jīng)過改造的XPath表達(dá)式表示
      2. 每個(gè)語(yǔ)義信息節(jié)點(diǎn)是否被多個(gè)樣本信息樹所共享
      3. 樣本信息樹的樹干,即,樣本信息樹的第一個(gè)分支前面的部分是樹干部分。 接著在步驟302,主要目的是計(jì)算出樣本信息樹每個(gè)節(jié)點(diǎn)的位置變化參數(shù),使用這些參
      數(shù)可以在目標(biāo)頁(yè)面上將每個(gè)節(jié)點(diǎn)識(shí)別出來,節(jié)點(diǎn)的位置變化參數(shù)包括
      1. 在整個(gè)頁(yè)面的DOM數(shù)據(jù)結(jié)構(gòu)中具有相同的訪問路徑的DOM節(jié)點(diǎn)組成一個(gè)節(jié)點(diǎn)序 歹ij,樣本信息樹節(jié)點(diǎn)在該序列中的起始位置
      2. 在這個(gè)節(jié)點(diǎn)序列中,樣本信息樹節(jié)點(diǎn)重復(fù)出現(xiàn)的周期
      接著在步驟303,選舉一個(gè)樣本信息樹分支作為參照。在步驟302,節(jié)點(diǎn)位置變化參數(shù)都 是對(duì)每個(gè)節(jié)點(diǎn)獨(dú)立計(jì)算的,沒有考慮語(yǔ)義樹形狀和在語(yǔ)義樹內(nèi)的相對(duì)關(guān)系,所以如果僅僅采 用此節(jié)點(diǎn)位置變化參數(shù)提取網(wǎng)絡(luò)信息,必然會(huì)提取出很多不相干的內(nèi)容來。選舉出樣本信息
      8樹參照分支后,樣本信息樹的其它節(jié)點(diǎn)的位置參數(shù)將相對(duì)于參照分支進(jìn)行變換。
      接著在步驟304,將樣本信息樹的節(jié)點(diǎn)的位置參數(shù)相對(duì)于參照分支進(jìn)行變換,得到相對(duì) 位置參數(shù),就是節(jié)點(diǎn)相對(duì)于參照分支的葉子節(jié)點(diǎn)的父子和兄弟關(guān)系,可以用來確定節(jié)點(diǎn)在樣 本信息樹中的位置,也就是決定了樣本信息樹的形狀;然后根據(jù)不同樣本信息樹的參照分支 的位置信息計(jì)算出整棵樹的位置參數(shù)。
      接著在步驟305,產(chǎn)生語(yǔ)義結(jié)構(gòu)識(shí)別公式,主要有兩類公式參照分支的識(shí)別公式和語(yǔ) 義結(jié)構(gòu)樹中其它語(yǔ)義結(jié)構(gòu)節(jié)點(diǎn)相對(duì)于參照分支的定位公式。參照分支的識(shí)別公式整合了語(yǔ)義
      結(jié)構(gòu)樹位置參數(shù)和形狀參數(shù)并將節(jié)點(diǎn)屬性作為過濾條件。
      接著在步驟306,生成語(yǔ)義結(jié)構(gòu)識(shí)別指令和語(yǔ)義結(jié)構(gòu)合法性識(shí)別指令。將步驟305產(chǎn)生 的識(shí)別公式轉(zhuǎn)換成標(biāo)準(zhǔn)的XSLT指令生成語(yǔ)義結(jié)構(gòu)識(shí)別指令,該指令可以被標(biāo)準(zhǔn)的XSLT引 擎解釋執(zhí)行,從網(wǎng)絡(luò)頁(yè)面上將符合語(yǔ)義結(jié)構(gòu)的語(yǔ)義信息塊識(shí)別出來,將語(yǔ)義信息塊中的語(yǔ)義 內(nèi)容提取出來,按照XSLT指令存儲(chǔ)到XML文件格式的提取結(jié)果文件中。語(yǔ)義結(jié)構(gòu)合法性識(shí) 別指令是根據(jù)語(yǔ)義結(jié)構(gòu)樹的位置參數(shù)和形狀參數(shù)尤其是語(yǔ)義結(jié)構(gòu)樹節(jié)點(diǎn)的屬性構(gòu)造產(chǎn)生的, 是XML格式的,可以被專用的XML引擎解釋執(zhí)行,對(duì)提取出來的語(yǔ)義內(nèi)容進(jìn)行檢査。
      網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別裝置
      圖4是根據(jù)本發(fā)明的優(yōu)選實(shí)施例的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別裝置的分解圖,圖中標(biāo)注的序 號(hào)代表單元之間的訪問和被訪問關(guān)系。如圖4所示,用戶使用語(yǔ)義結(jié)構(gòu)編輯單元?jiǎng)?chuàng)建語(yǔ)義結(jié) 構(gòu)樹、定義語(yǔ)義結(jié)構(gòu)樹節(jié)點(diǎn)的屬性、描述語(yǔ)義關(guān)系,語(yǔ)義結(jié)構(gòu)樹存儲(chǔ)在內(nèi)存中(401);用戶 將樣本頁(yè)面加載到系統(tǒng)內(nèi)嵌的Web瀏覽器上,使用樣本語(yǔ)義信息塊拾取單元為每個(gè)樣本語(yǔ)義 信息塊建立信息內(nèi)容與語(yǔ)義結(jié)構(gòu)樹中的節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系(402);對(duì)應(yīng)關(guān)系輸入到語(yǔ)義結(jié) 構(gòu)識(shí)別指令生成單元(403),利用從內(nèi)存中獲取的語(yǔ)義結(jié)構(gòu)描述信息(404),語(yǔ)義結(jié)構(gòu)識(shí)別 指令生成單元計(jì)算樣本信息樹的位置參數(shù)、形狀特征參數(shù),產(chǎn)生語(yǔ)義信息樹識(shí)別計(jì)算公式, 轉(zhuǎn)換成符合XSLT標(biāo)準(zhǔn)的語(yǔ)義樹識(shí)別指令和符合XML文檔格式標(biāo)準(zhǔn)的語(yǔ)義樹合法性識(shí)別指 令,存儲(chǔ)在內(nèi)存中(405);語(yǔ)義樹識(shí)別驗(yàn)證單元從內(nèi)存中獲取語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法 性識(shí)別指令,運(yùn)用到樣本頁(yè)面上進(jìn)行測(cè)試,如果用戶不滿意,使用語(yǔ)義結(jié)構(gòu)編輯單元修改語(yǔ) 義結(jié)構(gòu)或者使用樣本語(yǔ)義信息塊拾取單元修改頁(yè)面內(nèi)容與語(yǔ)義結(jié)構(gòu)的對(duì)應(yīng)關(guān)系,重復(fù)上述步 驟,直至滿意為止;滿足要求的語(yǔ)義樹識(shí)別和合法性識(shí)別指令以及語(yǔ)義結(jié)構(gòu)輸入到指令文件 和語(yǔ)義結(jié)構(gòu)文件讀寫管理單元(408, 409),生成符合XSLT標(biāo)準(zhǔn)的語(yǔ)義樹識(shí)別指令文件和符 合XML文檔格式標(biāo)準(zhǔn)的語(yǔ)義樹合法性識(shí)別指令文件和語(yǔ)義結(jié)構(gòu)描述文件,存儲(chǔ)到外存儲(chǔ)器上(410,411)。圖中有些箭頭是雙向的,表示外存儲(chǔ)器中原有的語(yǔ)義樹識(shí)別和合法性識(shí)別指 令文件和語(yǔ)義結(jié)構(gòu)描述文件被讀入本實(shí)施例,對(duì)其進(jìn)行修改或補(bǔ)充。
      權(quán)利要求
      1,一種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,所述語(yǔ)義結(jié)構(gòu)包括網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的多個(gè)語(yǔ)義相關(guān)的語(yǔ)義注解、被注解的信息的屬性、語(yǔ)義注解之間的關(guān)系,其特征在于,所述方法包括以下步驟(1)定義樣本頁(yè)面的所述語(yǔ)義結(jié)構(gòu),在系統(tǒng)內(nèi)部存儲(chǔ)成語(yǔ)義結(jié)構(gòu)樹;(2)生成語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令;(3)驗(yàn)證語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令的有效性(4)將語(yǔ)義結(jié)構(gòu)描述文件和語(yǔ)義樹識(shí)別指令文件和語(yǔ)義樹合法性識(shí)別文件存儲(chǔ)到外存儲(chǔ)器
      2,根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,其特征在于,所述語(yǔ)義結(jié)構(gòu)樹包括語(yǔ)義結(jié)構(gòu)樹節(jié)點(diǎn),代表網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的語(yǔ)義注解,用文本串命名語(yǔ)義注解; 語(yǔ)義結(jié)構(gòu)樹節(jié)點(diǎn)的屬性,對(duì)語(yǔ)義注解進(jìn)行修飾; 語(yǔ)義結(jié)構(gòu)樹節(jié)點(diǎn)之間的關(guān)系,用節(jié)點(diǎn)之間的邊表示。
      3, 根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,其特征在于,所述語(yǔ)義結(jié)構(gòu)描 述文件是一個(gè)XML文件,用于在外存儲(chǔ)器上存儲(chǔ)用戶定義的所述語(yǔ)義結(jié)構(gòu)。
      4, 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,其特征在于,所述語(yǔ)義樹識(shí)別 指令是標(biāo)準(zhǔn)的XSLT指令,'在外存儲(chǔ)器上以語(yǔ)義樹識(shí)別指令文件的形式存儲(chǔ)。
      5, 根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,其特征在于,所述語(yǔ)義樹合法 性識(shí)別指令是符合XML文檔格式標(biāo)準(zhǔn)的指令,在外存儲(chǔ)器上以語(yǔ)義樹合法性識(shí)別指令文件 的形式存儲(chǔ)。
      6,根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,其特征在于,所述存儲(chǔ)到外存 儲(chǔ)器的方法是在計(jì)算機(jī)內(nèi)存中生成語(yǔ)義結(jié)構(gòu)描述文件、語(yǔ)義樹識(shí)別指令文件和語(yǔ)義樹合法性 識(shí)別指令文件后,輸出存儲(chǔ)到本地硬盤和其它類型的本地外存儲(chǔ)器和網(wǎng)絡(luò)服務(wù)器存儲(chǔ)器。
      7,根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別方法,其特征在于,所述生成語(yǔ)義樹 識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令的方法包括以下步驟(21) 用戶在目標(biāo)頁(yè)面上為每個(gè)所述語(yǔ)義結(jié)構(gòu)分別選擇樣本語(yǔ)義信息塊,如果目標(biāo)頁(yè)面 上存在相同所述語(yǔ)義結(jié)構(gòu)的多塊信息,選擇多個(gè)樣本語(yǔ)義信息塊,否則,為每個(gè)所述語(yǔ)義結(jié) 構(gòu)只選擇一個(gè)樣本語(yǔ)義信息塊;(22) 為每個(gè)樣本語(yǔ)義信息塊建立信息內(nèi)容與所述語(yǔ)義結(jié)構(gòu)樹中的節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系;(23)計(jì)算樣本語(yǔ)義信息塊的位置和重現(xiàn)參數(shù),產(chǎn)生符合XSLT標(biāo)準(zhǔn)的語(yǔ)義樹識(shí)別指令 和符合XML文檔格式標(biāo)準(zhǔn)的語(yǔ)義樹合法性識(shí)別指令。
      8, —種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)的識(shí)別的裝置,所述語(yǔ)義結(jié)構(gòu)包括網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的多個(gè)語(yǔ) 義相關(guān)的語(yǔ)義注解、被注解的信息的屬性、語(yǔ)義注解之間的關(guān)系,其特征在于,所述裝置包 括語(yǔ)義結(jié)構(gòu)編輯單元,用于創(chuàng)建和編輯所述語(yǔ)義結(jié)構(gòu)樹;樣本語(yǔ)義信息塊拾取單元,用于選取樣本頁(yè)面上的樣本信息塊,為每個(gè)樣本語(yǔ)義信息塊 建立信息內(nèi)容與所述語(yǔ)義結(jié)構(gòu)樹中的節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系語(yǔ)義結(jié)構(gòu)識(shí)別指令生成單元,用于計(jì)算樣本語(yǔ)義信息塊的位置和重現(xiàn)參數(shù),產(chǎn)生所述語(yǔ) 義結(jié)構(gòu)樹識(shí)別指令和所述語(yǔ)義結(jié)構(gòu)樹合法性識(shí)別指令語(yǔ)義樹識(shí)別驗(yàn)證單元,用于驗(yàn)證識(shí)別出來的語(yǔ)義信息塊是否符合所述語(yǔ)義樹的形狀特征 和所述語(yǔ)義樹節(jié)點(diǎn)的屬性要求指令文件和語(yǔ)義結(jié)構(gòu)文件讀寫管理單元,用于將內(nèi)存中的所述語(yǔ)義樹識(shí)別指令和所述語(yǔ) 義樹合法性識(shí)別指令和所述語(yǔ)義結(jié)構(gòu)樹組織成文件,存儲(chǔ)到所述外存儲(chǔ)器上。
      全文摘要
      本發(fā)明公開了一種網(wǎng)絡(luò)信息語(yǔ)義結(jié)構(gòu)識(shí)別方法和裝置,所述語(yǔ)義結(jié)構(gòu)包括多個(gè)語(yǔ)義相關(guān)的網(wǎng)絡(luò)頁(yè)面信息內(nèi)容的語(yǔ)義注解、被注解的信息的屬性、語(yǔ)義注解之間的關(guān)系。通過定義樣本頁(yè)面的所述語(yǔ)義結(jié)構(gòu),在系統(tǒng)內(nèi)部存儲(chǔ)成語(yǔ)義結(jié)構(gòu)樹;生成語(yǔ)義樹識(shí)別指令和語(yǔ)義樹合法性識(shí)別指令;經(jīng)驗(yàn)證后將語(yǔ)義結(jié)構(gòu)描述文件和語(yǔ)義樹識(shí)別指令文件和語(yǔ)義樹合法性識(shí)別文件存儲(chǔ)到外存儲(chǔ)器。本發(fā)明定義和識(shí)別出的網(wǎng)絡(luò)頁(yè)面信息的語(yǔ)義結(jié)構(gòu)可以被信息提取、全文搜索和語(yǔ)義搜索、商業(yè)情報(bào)挖掘、信息聚合、網(wǎng)絡(luò)知識(shí)庫(kù)等系統(tǒng)使用。
      文檔編號(hào)G06F17/30GK101639840SQ200810142630
      公開日2010年2月3日 申請(qǐng)日期2008年7月29日 優(yōu)先權(quán)日2008年7月29日
      發(fā)明者華天清, 齊勇挺 申請(qǐng)人:華天清
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1