專利名稱::層次結(jié)構(gòu)集成方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)上信息對(duì)象的層次結(jié)構(gòu)(hierarchy)的自動(dòng)集成,更具體而言,本發(fā)明提供了用于自上而下地有效集成網(wǎng)絡(luò)上信息對(duì)象的層次結(jié)構(gòu)的方法和系統(tǒng)。
背景技術(shù):
:計(jì)算機(jī)已經(jīng)成為現(xiàn)代生活必不可少的工具,它可以幫助用戶找到感興趣的信息,這在當(dāng)今大量信息在Web上不斷積累的因特網(wǎng)時(shí)代尤其明顯。然而,信息爆炸在現(xiàn)代社會(huì)已經(jīng)成為一個(gè)非常嚴(yán)峻的問(wèn)題。人們每天要讀取和處理大量信息。因此,信息組織和呈現(xiàn)成為一項(xiàng)越來(lái)越重要的技術(shù)。對(duì)于信息,現(xiàn)有技術(shù)中用于組織和呈現(xiàn)信息的方法很多,例如,利用列表、層次結(jié)構(gòu)、圖等等。例如,Google就利用列表來(lái)呈現(xiàn)與查詢相關(guān)的網(wǎng)頁(yè)具體地講,與查詢?cè)较嚓P(guān)的網(wǎng)頁(yè)在列表中的呈現(xiàn)位置越高。層次結(jié)構(gòu)也已被廣泛用于信息組織和呈現(xiàn)。例如,很多網(wǎng)站都可被抽象化為一種層次結(jié)構(gòu)。一般而言,層次結(jié)構(gòu)包含節(jié)點(diǎn)和連接節(jié)點(diǎn)的邊。節(jié)點(diǎn)通常具有用于說(shuō)明其含義的文本,并且有時(shí)在節(jié)點(diǎn)處附有實(shí)例(instance)。例如,圖8示出層次結(jié)構(gòu)的一個(gè)示例。但是,請(qǐng)注意,該層次結(jié)構(gòu)的節(jié)點(diǎn)處沒(méi)有示出實(shí)例。層次結(jié)構(gòu)的集成是一種將多個(gè)層次結(jié)構(gòu)集成為一個(gè)層次結(jié)構(gòu)的過(guò)程。層次結(jié)構(gòu)集成的結(jié)果,即集成后的層次結(jié)構(gòu),應(yīng)該覆蓋所有層次結(jié)構(gòu)的內(nèi)容。因此,層次結(jié)構(gòu)的集成是對(duì)所有信息的全面組織。通過(guò)瀏覽集成的層次結(jié)構(gòu),用戶可以節(jié)省從不同數(shù)據(jù)源中搜索相關(guān)信息的時(shí)間。例如,如果可以將兩個(gè)網(wǎng)站"當(dāng)當(dāng)網(wǎng)"(http:〃www.dangdang.com)和"卓越網(wǎng)"(http://www.joyo.com)集成為一個(gè)網(wǎng)站,用戶則可以瀏覽兩個(gè)網(wǎng)站在同一節(jié)點(diǎn)處的特定產(chǎn)品,例如小說(shuō)。這樣一來(lái),用戶節(jié)省了從當(dāng)當(dāng)網(wǎng)和卓越網(wǎng)中分別搜素小說(shuō)的時(shí)間。鑒于上述層次結(jié)構(gòu)集成的優(yōu)勢(shì),現(xiàn)有技術(shù)中已經(jīng)提出很多方法和系統(tǒng)用來(lái)處理這一問(wèn)題。例如,日本專利申請(qǐng)公開(kāi)No.平8-255166(專利文獻(xiàn)1)和中國(guó)專利申請(qǐng)No.200710196522.3都對(duì)此有所描述(專利文獻(xiàn)2)。專利文獻(xiàn)1公開(kāi)了一種關(guān)鍵字層次結(jié)構(gòu)集成系統(tǒng),其用于將用戶關(guān)鍵字層次結(jié)構(gòu)與數(shù)據(jù)庫(kù)關(guān)鍵字層次結(jié)構(gòu)集成在一起。通過(guò)所產(chǎn)生的集成層次結(jié)構(gòu),可以降低管理成本。具體而言,該日本專利公開(kāi)了一種深度優(yōu)先的集成方法對(duì)于兩個(gè)異源節(jié)點(diǎn)(所謂"異源節(jié)點(diǎn)",意思是來(lái)自不同層次結(jié)構(gòu)的節(jié)點(diǎn))A禾PB,考慮它們的子節(jié)點(diǎn),例如A1、A2和B1、B2。如果Al和Bl被確定為相同并被集成,則它們的子節(jié)點(diǎn),例如All、A12和Bll、B12被比較。該過(guò)程不斷迭代,直到不再需要執(zhí)行進(jìn)一步的集成。專利文獻(xiàn)2公開(kāi)了一種一般層次結(jié)構(gòu)集成方法和系統(tǒng)。首先,利用該方法,異源節(jié)點(diǎn)被比較以確定關(guān)系。候選關(guān)系可以是以下關(guān)系之一相同、相似、包括、被包括、交叉、交叉-覆蓋、交叉-被覆蓋以及無(wú)關(guān)系。然后,基于關(guān)系和映射類型(例如l:l或l:n)來(lái)確定適當(dāng)?shù)募刹僮鳎绾喜⒉僮骰蚋缸硬僮?。最后,確定的操作被執(zhí)行,從而實(shí)現(xiàn)層次結(jié)構(gòu)的集成。如上所述日本專利申請(qǐng)公開(kāi)No.平8-255166和中國(guó)專利申請(qǐng)No.200710196522.3通過(guò)引用被整體結(jié)合于此,以用于所有目的。如本領(lǐng)域技術(shù)人員所知,在評(píng)價(jià)層次結(jié)構(gòu)集成方法或系統(tǒng)時(shí)有三個(gè)標(biāo)準(zhǔn),即精確度、召回率(recall)和效率。這表明一種好的集成方法應(yīng)該準(zhǔn)確、完整并且快速地集成層次結(jié)構(gòu)。現(xiàn)有技術(shù)在提高集成的精確度和召回率方面進(jìn)行了很多嘗試,但是很少考慮關(guān)于效率的問(wèn)題。例如,上述專利文獻(xiàn)1沒(méi)有考慮效率,并且在兩個(gè)匹配節(jié)點(diǎn)不具有相同深度時(shí)會(huì)遇到困難。另外,在上述專利文獻(xiàn)2中,節(jié)點(diǎn)之間的關(guān)系只有在層次結(jié)構(gòu)上的任意兩個(gè)節(jié)點(diǎn)都被比較之后才能確定,這需要花費(fèi)大量時(shí)間,并因此導(dǎo)致效率的降低。因此,非常需要一種層次結(jié)構(gòu)的集成方法和系統(tǒng),能夠在保持高精確度和召回率的同時(shí)提高集成效率。10
發(fā)明內(nèi)容鑒于上述現(xiàn)有技術(shù)的層次結(jié)構(gòu)集成方案中所具有的問(wèn)題,作出了本發(fā)明。本發(fā)明提出了一種自上而下的多階段層次結(jié)構(gòu)集成方法和系統(tǒng),其能夠在保持高精確度和召回率的同時(shí)提高集成效率。根據(jù)本發(fā)明第一方面,提供了一種用于集成層次結(jié)構(gòu)的方法,包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);對(duì)所述合并層次結(jié)構(gòu)按層分塊,其中每個(gè)塊包含一層或多層節(jié)點(diǎn);以及分多個(gè)階段按塊集成所述合并層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成,其中在每個(gè)所述階段中,選擇所述合并層次結(jié)構(gòu)上距離相等的來(lái)自相同塊或不同塊的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì)并對(duì)所選擇的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較和集成,并且在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。所述異源節(jié)點(diǎn)對(duì)的距離可以指從其中一個(gè)節(jié)點(diǎn)出發(fā),經(jīng)過(guò)根節(jié)點(diǎn)到達(dá)另一個(gè)節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目,或者指該異源節(jié)點(diǎn)對(duì)中離根節(jié)點(diǎn)較近的節(jié)點(diǎn)到根節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。根據(jù)本發(fā)明第二方面,提供了一種用于集成層次結(jié)構(gòu)的系統(tǒng),包括輸入裝置,用于輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);根節(jié)點(diǎn)合并裝置,用于合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);分塊裝置,用于對(duì)所述合并層次結(jié)構(gòu)按層分塊,其中每個(gè)塊包含一層或多層節(jié)點(diǎn);以及多階段集成裝置,用于分多個(gè)階段按塊集成所述合并層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成。其中所述多階段集成裝置包含待比較節(jié)點(diǎn)對(duì)選擇單元,用于在每個(gè)所述階段中選擇所述合并層次結(jié)構(gòu)上距離相等的來(lái)自相同塊或不同塊的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì);以及節(jié)點(diǎn)對(duì)集成單元,用于對(duì)所述待比較節(jié)點(diǎn)對(duì)選擇單元所選擇的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較和集成,其中在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。另外,根據(jù)本發(fā)明第三方面,還提供了另一種用于集成層次結(jié)構(gòu)的方法,包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);對(duì)輸入的所述第一和第二層次結(jié)構(gòu)上的節(jié)點(diǎn)分別執(zhí)行預(yù)處理,以識(shí)別出概念節(jié)點(diǎn),并確定相關(guān)的概念;合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);以及參考識(shí)別出的所述概念節(jié)點(diǎn)及其概念集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成。另外,根據(jù)本發(fā)明第四方面,還提供了又一種用于集成層次結(jié)構(gòu)的方法,包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);以及分階段集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成,其中在每個(gè)所述階段中識(shí)別并存儲(chǔ)無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì),并且無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì)的子孫節(jié)點(diǎn)所組成的異源節(jié)點(diǎn)對(duì)均不再參與隨后階段的處理。根據(jù)本發(fā)明第五方面,提供了一種用于集成層次結(jié)構(gòu)的系統(tǒng),包括用于輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的裝置;用于對(duì)輸入的所述第一和第二層次結(jié)構(gòu)上的節(jié)點(diǎn)分別執(zhí)行預(yù)處理,以識(shí)別出概念節(jié)點(diǎn),并確定相關(guān)的概念的裝置;用于合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu)的裝置;以及用于參考識(shí)別出的所述概念節(jié)點(diǎn)及其概念集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成的裝置。根據(jù)本發(fā)明第六方面,提供了另一種用于集成層次結(jié)構(gòu)的系統(tǒng),包括用于輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的裝置;用于合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu)的裝置;以及用于分階段集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成的裝置,其中在每個(gè)所述階段中識(shí)別并存儲(chǔ)無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì),并且無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì)的子孫節(jié)點(diǎn)所組成的異源節(jié)點(diǎn)對(duì)均不再參與隨后階段的處理。在層次結(jié)構(gòu)的集成過(guò)程中,節(jié)點(diǎn)之間的比較和集成被逐步(逐個(gè)階段)分塊執(zhí)行。具體地講,節(jié)點(diǎn)的比較和集成過(guò)程被分成若干階段,其中越可能具有關(guān)系的節(jié)點(diǎn)對(duì)被越早地比較和集成。為了盡早識(shí)別出有關(guān)系的節(jié)點(diǎn),本發(fā)明還提出"概念節(jié)點(diǎn)"的運(yùn)用,通過(guò)檢查和標(biāo)記概念節(jié)點(diǎn),可以在集成過(guò)程中盡早發(fā)現(xiàn)匹配的節(jié)點(diǎn)。另外,通過(guò)檢査無(wú)關(guān)系節(jié)點(diǎn)和參考前一階段的集成結(jié)果,本發(fā)明可以避免節(jié)點(diǎn)之間發(fā)生不必要的比較,因?yàn)樵诩蛇^(guò)程中,識(shí)別出的無(wú)關(guān)系的節(jié)點(diǎn)對(duì)的所有子孫節(jié)點(diǎn)或者在前一階段中已經(jīng)處理過(guò)的部分節(jié)點(diǎn)在隨后階段的集成中將被忽略,從而可以節(jié)省時(shí)間并提高集成速度。另外,本發(fā)明還提出對(duì)于深度匹配情況的復(fù)査,艮口,為了避免錯(cuò)誤的操作,對(duì)于兩個(gè)匹配的節(jié)點(diǎn),將其中一個(gè)節(jié)點(diǎn)與另一節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)進(jìn)行比較以檢査是否存在更好的匹配。通過(guò)以上多種措施的采取,本發(fā)明相對(duì)于現(xiàn)有技術(shù)的集成方案,可以大大提高集成的效率,同時(shí)不影響集成的精確度和召回率。結(jié)合附圖,從下面對(duì)本發(fā)明實(shí)施例的詳細(xì)描述,將更好地理解本發(fā)明,附圖中類似的參考標(biāo)注指示類似的部分,其中圖1是根據(jù)本發(fā)明的層次結(jié)構(gòu)集成系統(tǒng)100的總體框圖;圖2是示出圖1所示層次結(jié)構(gòu)集成系統(tǒng)100中的多階段集成裝置的一個(gè)示例的詳細(xì)框圖;圖3是結(jié)合圖1和圖2示出根據(jù)本發(fā)明的層次結(jié)構(gòu)集成系統(tǒng)100的操作的流程圖;圖4示出根據(jù)本發(fā)明的多階段層次結(jié)構(gòu)集成中的分塊過(guò)程的一個(gè)簡(jiǎn)單示例;圖5示出在標(biāo)記概念節(jié)點(diǎn)的情況下,用于確定節(jié)點(diǎn)對(duì)關(guān)系的關(guān)系確定單元的詳細(xì)框圖;圖6是用于說(shuō)明針對(duì)合并操作的深度匹配情況復(fù)查過(guò)程的流程圖;圖7A、圖7B-1、圖7B-2、圖7C-1和圖7C-2分別示出根據(jù)本發(fā)明的多階段分塊層次結(jié)構(gòu)集成過(guò)程的示例,其中在合并操作或父子操作之后形成的子層次結(jié)構(gòu)在下一階段之前被集成;以及圖8是示出層次結(jié)構(gòu)的一個(gè)示例的示意圖。具體實(shí)施方式下面將參考附圖描述根據(jù)本發(fā)明的示例性實(shí)施例。應(yīng)當(dāng)意識(shí)到,所描述的實(shí)施例僅是用于舉例說(shuō)明的目的,本發(fā)明并不限于所描述的具體實(shí)施例。圖1是根據(jù)本發(fā)明的層次結(jié)構(gòu)集成系統(tǒng)100的總體框圖。如圖所示,層次結(jié)構(gòu)集成系統(tǒng)IOO主要由輸入裝置101、預(yù)處理裝置102、根節(jié)點(diǎn)合并裝置103、分塊裝置104和多階段集成裝置105構(gòu)成。此外,層次結(jié)構(gòu)集成系統(tǒng)IOO還包括用于存儲(chǔ)層次結(jié)構(gòu)的層次結(jié)構(gòu)存儲(chǔ)器106以及用于存儲(chǔ)最終集成結(jié)果的集成層次結(jié)構(gòu)存儲(chǔ)器107。首先,輸入裝置101從層次結(jié)構(gòu)存儲(chǔ)器106獲取將要進(jìn)行集成的兩個(gè)層次結(jié)構(gòu)Ll和L2,并將層次結(jié)構(gòu)Ll和L2傳輸?shù)筋A(yù)處理裝置102進(jìn)行預(yù)處理。應(yīng)當(dāng)注意,預(yù)處理裝置102在這里作為一個(gè)可選部件并入,其用于在集成之前,對(duì)層次結(jié)構(gòu)上的節(jié)點(diǎn)進(jìn)行一些可選的預(yù)處理,以求提高接下來(lái)的集成正確性或效率。例如,對(duì)于由中文網(wǎng)頁(yè)構(gòu)成的層次結(jié)構(gòu),節(jié)點(diǎn)文本可能首先被切分成詞并去除其中的標(biāo)點(diǎn)符號(hào),然后再進(jìn)行集成。經(jīng)預(yù)處理的層次結(jié)構(gòu)L1和L2隨后進(jìn)入根節(jié)點(diǎn)合并裝置103,在根節(jié)點(diǎn)合并裝置103處,兩個(gè)層次結(jié)構(gòu)的根節(jié)點(diǎn)被首先合并,從而從形式上首先集成為一個(gè)合并層次結(jié)構(gòu)。當(dāng)然,為了便于隨后的集成,這里需要對(duì)來(lái)自不同層次結(jié)構(gòu)的節(jié)點(diǎn)進(jìn)行區(qū)分。在隨后的描述中,來(lái)自不同層次結(jié)構(gòu)的節(jié)點(diǎn)被稱為"異源節(jié)點(diǎn)",而來(lái)自同一層次結(jié)構(gòu)的節(jié)點(diǎn)被稱為"同源節(jié)點(diǎn)"。然后,合并層次結(jié)構(gòu)L'被輸入到分塊裝置104,以對(duì)合并層次結(jié)構(gòu)L'上的節(jié)點(diǎn)進(jìn)行分塊。在一個(gè)實(shí)施例中,可以對(duì)節(jié)點(diǎn)按層分塊,其中每一塊可以包含合并層次結(jié)構(gòu)L'上一層或多層節(jié)點(diǎn)。例如,如隨后將詳細(xì)描述的圖7A所示,該合并層次結(jié)構(gòu)被分成三塊,其中塊l包含第一層節(jié)點(diǎn),塊2包含第二和第三層節(jié)點(diǎn),塊3包含第四層節(jié)點(diǎn)。當(dāng)然,層次結(jié)構(gòu)的層數(shù)以及分塊規(guī)則并不局限于所示示例,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求和應(yīng)用分別設(shè)計(jì)不同的分塊規(guī)則。另外,在圖7A中,對(duì)合并層次結(jié)構(gòu)上的異源節(jié)點(diǎn)進(jìn)行了區(qū)分,即以"o"代表來(lái)自層次結(jié)構(gòu)Ll的節(jié)點(diǎn),以"■"代表來(lái)自層次結(jié)構(gòu)L2的節(jié)點(diǎn),并以""'代表合并節(jié)點(diǎn)。返回圖1,經(jīng)分塊的合并層次結(jié)構(gòu)L'隨后被提供到多階段集成裝置105進(jìn)行集成。根據(jù)本發(fā)明,在多階段集成裝置105中,集成是以多階段的方式按塊進(jìn)行的。具體地講,在本發(fā)明的一個(gè)實(shí)施例中,集成過(guò)程被分成多個(gè)階段,在每個(gè)階段中對(duì)來(lái)自同一塊或不同塊的異源節(jié)點(diǎn)對(duì)進(jìn)行集成,以最終實(shí)現(xiàn)層次結(jié)構(gòu)L1和L2的整體集成。關(guān)于多階段集成的詳細(xì)過(guò)程,隨后將結(jié)合附圖具體描述。如圖1所示,多階段集成裝置105包含待比較節(jié)點(diǎn)對(duì)選擇單元1051、節(jié)點(diǎn)對(duì)集成單元1052和待比較節(jié)點(diǎn)對(duì)存儲(chǔ)器1053。在每一階段中,待比較節(jié)點(diǎn)對(duì)選擇單元1051首先確定在該階段中將處理的一個(gè)或多個(gè)塊,以及所有塊中的異源節(jié)點(diǎn)對(duì),作為該階段將集成的待比較節(jié)點(diǎn)對(duì)。隨后將說(shuō)明,在某些實(shí)施例中,可能并非所有異源節(jié)點(diǎn)對(duì)都被作為待比較節(jié)點(diǎn)對(duì)進(jìn)行處理,在選擇待比較節(jié)點(diǎn)對(duì)的步驟中,待比較節(jié)點(diǎn)對(duì)選擇單元1051可以參考先前階段的集成結(jié)果對(duì)異源節(jié)點(diǎn)對(duì)進(jìn)行選擇,刪除掉不需要進(jìn)行比較的多余節(jié)點(diǎn)對(duì),從而節(jié)省集成時(shí)間并提高集成效率。所選擇的所有待比較節(jié)點(diǎn)對(duì)隨后被存儲(chǔ)在待比較節(jié)點(diǎn)對(duì)存儲(chǔ)器1053中。接下來(lái),節(jié)點(diǎn)對(duì)集成單元1052對(duì)待比較節(jié)點(diǎn)對(duì)存儲(chǔ)器1053中存儲(chǔ)的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較,確定待比較節(jié)點(diǎn)對(duì)之間的關(guān)系和將對(duì)其執(zhí)行的操作,并通過(guò)執(zhí)行具體操作來(lái)實(shí)現(xiàn)待比較節(jié)點(diǎn)對(duì)的集成。隨后,多階段集成裝置105的處理進(jìn)行下一階段。待比較節(jié)點(diǎn)對(duì)選擇單元1051、節(jié)點(diǎn)對(duì)集成單元1052和待比較節(jié)點(diǎn)對(duì)存儲(chǔ)器1053分多個(gè)階段重復(fù)上述操作,以逐步實(shí)現(xiàn)合并層次結(jié)構(gòu)L'上的異源節(jié)點(diǎn)對(duì)的集成。最終,作為集成結(jié)果的集成層次結(jié)構(gòu)L被提供到集成層次結(jié)構(gòu)存儲(chǔ)器107并存儲(chǔ)在其中。這里,在進(jìn)一步詳細(xì)闡述本發(fā)明所提出的多階段層次結(jié)構(gòu)集成方案之前,首先引入"概念節(jié)點(diǎn)"的概念。如前所述,通過(guò)識(shí)別"概念節(jié)點(diǎn)",可以盡早發(fā)現(xiàn)層次結(jié)構(gòu)上的匹配節(jié)點(diǎn),從而提高層次結(jié)構(gòu)的集成效率。概念節(jié)點(diǎn)的識(shí)別可以作為預(yù)處理裝置102所執(zhí)行的處理的一部分。在預(yù)處理裝置102中,從輸入的每個(gè)層次結(jié)構(gòu)上的節(jié)點(diǎn)中識(shí)別出概念節(jié)點(diǎn),對(duì)這些概念節(jié)點(diǎn)進(jìn)行標(biāo)記,并確定它們各自相應(yīng)的概念,以用于隨后的集成過(guò)程。例如,對(duì)于某一層次結(jié)構(gòu)上的多個(gè)節(jié)點(diǎn)"男裝—鞋子—(皮鞋l涼鞋i登山鞋)"(其中B"表示A是B的父節(jié)點(diǎn),"AIB"表示A和B互為兄弟節(jié)點(diǎn),括號(hào)中是一組有關(guān)系的節(jié)點(diǎn),下同)。節(jié)點(diǎn)"鞋子"被識(shí)別并標(biāo)記為概念節(jié)點(diǎn),并且其相應(yīng)概念為"鞋"??梢栽O(shè)想多種方法用來(lái)判斷一個(gè)節(jié)點(diǎn)是否是概念節(jié)點(diǎn)。在介紹這些方法之前,首先引入以下兩個(gè)概念節(jié)點(diǎn)文本的中心語(yǔ)(core)和修飾語(yǔ)(decoration)。每個(gè)節(jié)點(diǎn)的文本可被分成兩個(gè)部分,即中心語(yǔ)和修飾語(yǔ)。例如,關(guān)于節(jié)點(diǎn)"高頻放大器",其中心語(yǔ)為"放大器"而其修飾語(yǔ)為"高頻"。如何判斷節(jié)點(diǎn)文本中的中心語(yǔ)和修飾語(yǔ)屬于本領(lǐng)域公知技術(shù),這里不作贅述。一般地講,節(jié)點(diǎn)文本的后一部分為中心語(yǔ),而前一部分通常為修飾語(yǔ)。在一個(gè)實(shí)施例中,簡(jiǎn)單的方法是可以通過(guò)計(jì)算詞頻來(lái)判斷概念節(jié)點(diǎn)。一般而言,概念通常是在節(jié)點(diǎn)本身及其子孫節(jié)點(diǎn)中頻繁出現(xiàn)的詞。例如,對(duì)于多個(gè)節(jié)點(diǎn)"男裝^鞋子—(皮鞋i涼鞋i登山鞋)","鞋子"為概念節(jié)點(diǎn),并且其相應(yīng)概念為"鞋"。再例如,對(duì)于多個(gè)節(jié)點(diǎn)"男鞋—(皮鞋I涼鞋I休閑鞋)","男鞋"為概念節(jié)點(diǎn),并且其相應(yīng)概念也為"鞋"。更嚴(yán)格地講,概念可以是某一節(jié)點(diǎn)及其大多數(shù)子孫節(jié)點(diǎn)的中心語(yǔ)。更復(fù)雜一點(diǎn),可以對(duì)節(jié)點(diǎn)文本進(jìn)行語(yǔ)義分析。例如,對(duì)于多個(gè)節(jié)點(diǎn)"服裝—襯衫I西服I褲子",雖然"襯衫"和"褲子"在文本上不同于"服裝",但是經(jīng)過(guò)語(yǔ)義分析,可以知道"襯衫"和"褲子"都是"服裝"的子概念。因此,"服裝"可以被識(shí)別為概念節(jié)點(diǎn)。概念節(jié)點(diǎn)的識(shí)別對(duì)于隨后的層次結(jié)構(gòu)集成過(guò)程具有積極的意義。如隨后將描述的,在確定節(jié)點(diǎn)對(duì)之間的關(guān)系時(shí),如果節(jié)點(diǎn)對(duì)中的兩個(gè)節(jié)點(diǎn)都是概念節(jié)點(diǎn),則可以基于它們的概念來(lái)識(shí)別節(jié)點(diǎn)對(duì)之間的關(guān)系。也就是說(shuō),可以用節(jié)點(diǎn)概念代替節(jié)點(diǎn)文本來(lái)計(jì)算它們的關(guān)系。例如如果它們的概念是相同的,則認(rèn)為節(jié)點(diǎn)對(duì)之間具有"相同"關(guān)系。舉例來(lái)說(shuō),對(duì)于兩組節(jié)點(diǎn)"男裝—鞋子—(皮鞋I涼鞋I登山鞋)"和"男鞋—(皮鞋I涼鞋I休閑鞋)",由于"鞋子"和"男鞋"都是概念節(jié)點(diǎn)并且具有相同的概念"鞋",因此認(rèn)為節(jié)點(diǎn)"鞋子"和"男鞋"匹配,并在它們之間設(shè)置"相同"關(guān)系。由此可見(jiàn),通過(guò)預(yù)先識(shí)別概念節(jié)點(diǎn),可以盡早得知存在匹配的節(jié)點(diǎn)對(duì),從而簡(jiǎn)化確定節(jié)點(diǎn)對(duì)關(guān)系的過(guò)程并提高層次結(jié)構(gòu)集成的效率。概念節(jié)點(diǎn)的檢査和匹配之所以能夠提高層次結(jié)構(gòu)集成的效率,簡(jiǎn)單地講,可以出于以下原因??紤]兩組節(jié)點(diǎn)"男裝—鞋子—(皮鞋I涼鞋I登山鞋)"和"(襯衫—(圓領(lǐng)襯衫i尖領(lǐng)襯衫))I(男鞋—(皮鞋I涼鞋I休閑鞋))"。正確的操作應(yīng)該是將節(jié)點(diǎn)"鞋子"與"男鞋"相合并。但是,由于"鞋子"和"男鞋"在文本上存在一點(diǎn)不同,現(xiàn)有技術(shù)中的傳統(tǒng)方法可能無(wú)法將兩者立即合并。只有在它們的子節(jié)點(diǎn)都經(jīng)過(guò)比較之后才能確定執(zhí)行合并操作,這是因?yàn)閭鹘y(tǒng)方法的一般規(guī)則是如果兩個(gè)節(jié)點(diǎn)的大多數(shù)子節(jié)點(diǎn)都相同,則確定這兩個(gè)節(jié)點(diǎn)是相同的,因而可以合并。但是,在合并之前,不可避免要執(zhí)行大量比較,例如皮鞋與休閑鞋,登山鞋與涼鞋,鞋子和圓領(lǐng)襯衫,皮鞋與尖領(lǐng)襯衫等,這些比較需要花費(fèi)大量時(shí)間。相對(duì)照地,通過(guò)預(yù)先識(shí)別概念節(jié)點(diǎn)并知曉其概念,可以在確定節(jié)點(diǎn)對(duì)關(guān)系的過(guò)程中盡早發(fā)現(xiàn)匹配的節(jié)點(diǎn)對(duì),從而提高集成的效率。圖2是示出圖1所示層次結(jié)構(gòu)集成系統(tǒng)100中的多階段集成裝置105的一個(gè)示例的詳細(xì)框圖。圖3是結(jié)合圖l和圖2示出根據(jù)本發(fā)明的層次結(jié)構(gòu)集成系統(tǒng)100的操作的流程圖。如圖2所示,在該示例中,節(jié)點(diǎn)對(duì)集成單元1052被示為包含三個(gè)部件,即關(guān)系確定單元201、操作確定單元202和操作執(zhí)行單元203。并且,節(jié)點(diǎn)對(duì)集成單元1052還包括節(jié)點(diǎn)對(duì)關(guān)系存儲(chǔ)器204,用于存儲(chǔ)在每個(gè)階段中由關(guān)系確定單元201所確定的所有節(jié)點(diǎn)對(duì)關(guān)系。在該示例中,來(lái)自待比較節(jié)點(diǎn)對(duì)存儲(chǔ)器1053的所有待比較節(jié)點(diǎn)對(duì)首先被輸入到關(guān)系確定單元201以確定所有節(jié)點(diǎn)對(duì)的關(guān)系。在每一階段,節(jié)點(diǎn)對(duì)之間的關(guān)系被首先分為三類,即有關(guān)系、無(wú)關(guān)系和關(guān)系不確定。在確定有關(guān)系的情況下,節(jié)點(diǎn)對(duì)之間的關(guān)系可以被確定為以下關(guān)系之一相同、相似、包括、被包括、交叉、交叉-覆蓋和交叉-被覆蓋。這里,確定節(jié)點(diǎn)對(duì)之間關(guān)系的過(guò)程可以采取本領(lǐng)域公知的技術(shù)實(shí)現(xiàn),這里不作贅述。在節(jié)點(diǎn)對(duì)之間被確定為無(wú)關(guān)系的情況下,無(wú)關(guān)系的節(jié)點(diǎn)對(duì)被記錄在無(wú)關(guān)系節(jié)點(diǎn)對(duì)存儲(chǔ)器1054中,并且無(wú)關(guān)系節(jié)點(diǎn)對(duì)存儲(chǔ)器1054中所存儲(chǔ)的所有無(wú)關(guān)系節(jié)點(diǎn)對(duì)在隨后階段的處理中被待比較節(jié)點(diǎn)對(duì)選擇單元1051用作參考,從而使得被確定為無(wú)關(guān)系的節(jié)點(diǎn)對(duì)的所有子孫節(jié)點(diǎn)組成的節(jié)點(diǎn)對(duì)都不再參與隨后階段的集成處理。顯而易見(jiàn),無(wú)關(guān)系節(jié)點(diǎn)對(duì)的識(shí)別可以簡(jiǎn)化隨后階段的集成處理,從而提高層次結(jié)構(gòu)集成的整體效率。例如,考慮兩組節(jié)點(diǎn)"高頻放大器—(500HZI600~1000HZ|1000HZ以上)"以及"低頻放大器—(100HZ以下I100200HZI300300HZ)"。兩個(gè)父節(jié)點(diǎn)"高頻放大器"和"低頻放大器"由于含義相反而被確定為無(wú)關(guān)系,因此它們的子節(jié)點(diǎn),例如"500HZ"和"100HZ"將不再被比較,因?yàn)檫@些子節(jié)點(diǎn)之間顯然也是無(wú)關(guān)系的。因此,它們的所有子孫節(jié)點(diǎn)在隨后階段的比較集成中將被忽略。這樣做,可以有利地節(jié)省處理時(shí)間并加速集成過(guò)程。關(guān)于無(wú)關(guān)系節(jié)點(diǎn)對(duì)的判斷,用戶可以根據(jù)實(shí)際應(yīng)用需求制定適當(dāng)?shù)谋容^規(guī)則。例如,可以設(shè)定兩個(gè)節(jié)點(diǎn)在滿足如下條件之一時(shí)被確定為無(wú)關(guān)系(1)兩個(gè)節(jié)點(diǎn)均為概念節(jié)點(diǎn),但是它們的概念是不同的并且節(jié)點(diǎn)文本的相似度為0,例如節(jié)點(diǎn)對(duì)"放大器"和"電源";(2)兩個(gè)節(jié)點(diǎn)的中心語(yǔ)是相同的,但修飾語(yǔ)是反義詞,例如節(jié)點(diǎn)對(duì)"高頻放大器"和"低頻放大器";以及(3)—個(gè)節(jié)點(diǎn)是合并節(jié)點(diǎn)。例如,考慮來(lái)自不同層次結(jié)構(gòu)L1和L2的兩組節(jié)點(diǎn)"比較器i(放大器—(300HZ以下I300HZ以上))"禾B"二級(jí)管I(放大器—(100-200HZi200HZ以上))"。如果兩個(gè)"放大器"節(jié)點(diǎn)被合并成一個(gè)節(jié)點(diǎn),則確定來(lái)自層次結(jié)構(gòu)L1的節(jié)點(diǎn)"比較器"與合并節(jié)點(diǎn)"放大器"無(wú)關(guān)系。因此,在隨后的階段中,在來(lái)自層次結(jié)構(gòu)Ll的節(jié)點(diǎn)"比較器"和來(lái)自層次結(jié)構(gòu)L2的"放大器"節(jié)點(diǎn)的子節(jié)點(diǎn)"100-200HZ"和"200HZ以上"之間不再進(jìn)行比較。另外,在關(guān)系確定單元201確定節(jié)點(diǎn)對(duì)之間的關(guān)系不確定的情況下,在該階段不對(duì)該節(jié)點(diǎn)對(duì)執(zhí)行任何操作,而留待隨后的階段進(jìn)行進(jìn)一步的判斷。關(guān)于階段對(duì)關(guān)系的確定并不局限于上述規(guī)則和示例,本領(lǐng)域技術(shù)人員可以設(shè)想其他規(guī)則用于確定節(jié)點(diǎn)對(duì)之間的關(guān)系。在獲知某一階段中所有待比較節(jié)點(diǎn)對(duì)之間的關(guān)系之后,確定的關(guān)系可以被存儲(chǔ)在節(jié)點(diǎn)對(duì)關(guān)系存儲(chǔ)器204中。參考圖3,其結(jié)合圖1和圖2示出根據(jù)本發(fā)明的層次結(jié)構(gòu)集成系統(tǒng)100的操作的流程圖。過(guò)程300開(kāi)始于步驟301,其中輸入裝置101從層次結(jié)構(gòu)存儲(chǔ)器106獲取第一層次結(jié)構(gòu)Ll和第二層次結(jié)構(gòu)L2。在步驟302中,預(yù)處理裝置102對(duì)獲取的第一層次結(jié)構(gòu)Ll和第二層次結(jié)構(gòu)L2上的節(jié)點(diǎn)進(jìn)行預(yù)處理。如前所述,所述預(yù)處理過(guò)程例如是將節(jié)點(diǎn)文本切分成詞、去除文本中的標(biāo)點(diǎn)符號(hào)、識(shí)別概念節(jié)點(diǎn)等等。然后,在步驟303中,根節(jié)點(diǎn)合并裝置103將第一層次結(jié)構(gòu)Ll和第二層次結(jié)構(gòu)L2的根結(jié)合合并為一個(gè)根節(jié)點(diǎn),從而得到合并層次結(jié)構(gòu)L'。在步驟304中,分塊裝置104對(duì)合并層次結(jié)構(gòu)L'上的節(jié)點(diǎn)按層分塊,其中每一塊可以包含合并層次結(jié)構(gòu)L'上的一層或多層節(jié)點(diǎn)。如前所述,經(jīng)分塊的合并層次結(jié)構(gòu)L'被輸入多階段集成裝置105以執(zhí)行多階段的層次結(jié)構(gòu)集成過(guò)程。在圖3中,所述多階段的層次結(jié)構(gòu)集成過(guò)程由步驟305-310的循環(huán)構(gòu)成。針對(duì)其中一個(gè)階段,例如第n階段,首先,在步驟305中,待比較節(jié)點(diǎn)對(duì)選擇單元1051選擇該階段(第n階段)將被執(zhí)行集成處理的一個(gè)或多個(gè)塊,并選擇這些塊中的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì)。關(guān)于各階段所處理的塊以及待比較節(jié)點(diǎn)對(duì)的選擇,隨后將參考附圖進(jìn)一步詳細(xì)描述。然后,在步驟306中,由關(guān)系確定單元201確定所選擇的待比較節(jié)點(diǎn)對(duì)的關(guān)系,并由操作確定單元202根據(jù)所確定的關(guān)系確定將對(duì)相應(yīng)節(jié)點(diǎn)對(duì)執(zhí)行的操作(步驟307)。然后,在步驟308中,操作執(zhí)行單元203對(duì)節(jié)點(diǎn)對(duì)執(zhí)行操作確定單元202所確定的操作。在某些實(shí)施例中,根據(jù)確定的不同關(guān)系,對(duì)節(jié)點(diǎn)對(duì)所執(zhí)行的操作可以是合并操作和父子操作之一。在執(zhí)行完對(duì)該階段所有待比較節(jié)點(diǎn)對(duì)的操作之后,即在完成該階段的集成之后,在步驟309中判斷是否對(duì)合并層次結(jié)構(gòu)L'上所有塊的處理都己完成。如果是,則獲得最終的集成層次機(jī)構(gòu)L,并且過(guò)程300結(jié)束。如果對(duì)合并層次結(jié)構(gòu)L'的多階段集成處理尚未完成,則前進(jìn)至下一階段(步驟310)以重復(fù)上述步驟305-310的操作,直到對(duì)所有塊的處理均已完成為止。如前所述,下一階段的集成處理可以參考前一階段的比較和集成結(jié)果。例如,對(duì)于在前一階段被確定為無(wú)關(guān)系的節(jié)點(diǎn)對(duì),它們的所有子孫節(jié)點(diǎn)都不再參與隨后階段的比較集成操作。返回圖2,如圖所示,所述多階段集成裝置105還可以包括子層次結(jié)構(gòu)集成單元1055,該單元1055作為一個(gè)可選模塊并入,用以示出本發(fā)明的一個(gè)優(yōu)選示例。但是,從隨后的描述顯而易見(jiàn),本發(fā)明并不局限于該示例,多階段集成裝置105可以采取其他方式實(shí)現(xiàn)層次結(jié)構(gòu)的集成。在圖2所示示例中,假設(shè)經(jīng)過(guò)某一階段的處理,操作執(zhí)行單元203對(duì)合并層次結(jié)構(gòu)上的某一節(jié)點(diǎn)對(duì)執(zhí)行了合并操作或父子操作,在此情況下,可以在進(jìn)入下一階段之前,由子層次結(jié)構(gòu)集成單元1055首先對(duì)經(jīng)過(guò)合并操作或父子操作所形成的子層次結(jié)構(gòu)sub-L首先進(jìn)行集成。對(duì)于子層次結(jié)構(gòu)sub-L的集成可以采取本領(lǐng)域已知的現(xiàn)有技術(shù),也可以采用本發(fā)明所公開(kāi)的多階段集成方式。在采取根據(jù)本發(fā)明的多階段集成方式的情況下,對(duì)子層次結(jié)構(gòu)sub-L的分塊可以與原合并層次結(jié)構(gòu)L'的整體分塊保持一致,也可以采取獨(dú)立于合并層次結(jié)構(gòu)L'的不同的分塊方式。在對(duì)子層次結(jié)構(gòu)sub-L上異源節(jié)點(diǎn)進(jìn)行集成之后,待比較節(jié)點(diǎn)對(duì)選擇單元1051可以參考子層次結(jié)構(gòu)sub-L來(lái)調(diào)整下一階段將被處理的待比較節(jié)點(diǎn)對(duì)。類似于在處理無(wú)關(guān)系節(jié)點(diǎn)對(duì)時(shí)的情況,通過(guò)參考子層次結(jié)構(gòu)sub-L,待比較節(jié)點(diǎn)對(duì)選擇單元1051可以根據(jù)上一階段的集成處理結(jié)果從預(yù)期應(yīng)該處理的下一階段的待比較節(jié)點(diǎn)對(duì)中刪除掉部分已經(jīng)處理過(guò)或者顯然無(wú)關(guān)系的節(jié)點(diǎn)對(duì),從而節(jié)省集成處理的時(shí)間并提高效率。關(guān)于子層次結(jié)構(gòu)sub-L的集成以及待比較節(jié)點(diǎn)對(duì)的選擇隨后將參考圖7A、圖7B和圖7C所示的示例來(lái)進(jìn)一步描述。如上所述,本發(fā)明提供了層次結(jié)構(gòu)的多階段分塊集成方案。下面首先對(duì)分塊過(guò)程進(jìn)行介紹。圖4示出根據(jù)本發(fā)明的多階段層次結(jié)構(gòu)集成中的分塊過(guò)程的一個(gè)簡(jiǎn)單示例。首先,在圖4中,在階段0輸入兩個(gè)層次結(jié)構(gòu)L1和L2,它們分別以Rl和R2為根節(jié)點(diǎn)。在該示例中,層次結(jié)構(gòu)Ll包含兩層節(jié)點(diǎn)(不包括根節(jié)點(diǎn)),而層次結(jié)構(gòu)L2包含三層節(jié)點(diǎn)。這里為了區(qū)分異源節(jié)點(diǎn),來(lái)自層次結(jié)構(gòu)L1和L2的節(jié)點(diǎn)分別以不同標(biāo)記"o"和"■"示出。在階段l,兩個(gè)層次結(jié)構(gòu)Ll和L2的根節(jié)點(diǎn)Rl和R2并合并為根節(jié)點(diǎn)R,從而得到合并層次結(jié)構(gòu)L'。并且在階段1中,對(duì)合并層次結(jié)構(gòu)L'上的節(jié)點(diǎn)進(jìn)行分塊。在圖4所示示例中,合并層次結(jié)構(gòu)L'被分成兩塊,即第一塊包含所有第一層節(jié)點(diǎn),而第二塊包含第二、三層節(jié)點(diǎn)。當(dāng)然,如前所述,對(duì)于合并層次結(jié)構(gòu)L'的分塊方式并不局限于所示示例。根據(jù)實(shí)際應(yīng)用的不同,可以采取其他分塊規(guī)則對(duì)合并層次結(jié)構(gòu)L'進(jìn)行分塊,例如可以將合并層次結(jié)構(gòu)L'分成三塊,其中每一塊包含一層節(jié)點(diǎn)。在圖4所示示例中,對(duì)于合并層次結(jié)構(gòu)L'的多階段集成被分成了三個(gè)階段,即階段l、階段2和階段3。作為示例,在每個(gè)階段中,待比較節(jié)點(diǎn)對(duì)的選擇可以遵循如下規(guī)則在每個(gè)階段中,選擇合并層次結(jié)構(gòu)L'上距離相等的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì),并且在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。在一個(gè)實(shí)施例中,異源節(jié)點(diǎn)對(duì)的距離可以是從一個(gè)節(jié)點(diǎn)出發(fā),經(jīng)過(guò)根節(jié)點(diǎn)到達(dá)另一個(gè)節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。當(dāng)然,關(guān)于異源節(jié)點(diǎn)對(duì)的定義并不局限于以上示例。在另一實(shí)施例中,異源節(jié)點(diǎn)對(duì)的距離也可以是從該異源節(jié)點(diǎn)對(duì)中離根節(jié)點(diǎn)較近的節(jié)點(diǎn)出發(fā),到達(dá)根節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。以上對(duì)于節(jié)點(diǎn)對(duì)距離的定義均為示例性的,用戶可以根據(jù)系統(tǒng)應(yīng)用的需要對(duì)節(jié)點(diǎn)對(duì)距離自行定義。例如,在圖4中,假設(shè)相鄰塊之間的距離為1,則由來(lái)自層次結(jié)構(gòu)L1上的節(jié)點(diǎn)Al和來(lái)自層次結(jié)構(gòu)L2上的節(jié)點(diǎn)Bl構(gòu)成的異源節(jié)點(diǎn)對(duì)之間的距離為2(起點(diǎn)塊和終點(diǎn)塊被計(jì)算在內(nèi))。同理,處于同一塊內(nèi)的節(jié)點(diǎn)對(duì)A2和Bl之間的距離、Al和B2之間的距離以及A2和B2之間的距離也均為2。節(jié)點(diǎn)對(duì)Al和B21之間的距離為3,節(jié)點(diǎn)對(duì)Al和B211的距離也為3。節(jié)點(diǎn)對(duì)All和B21之間的距離為4,節(jié)點(diǎn)對(duì)All和B211之間的距離也為4。當(dāng)然,對(duì)于階段的劃分以及待比較節(jié)點(diǎn)對(duì)的選擇并不局限于所述規(guī)則,本領(lǐng)域技術(shù)人員可以設(shè)想根據(jù)實(shí)際需求設(shè)計(jì)其他規(guī)則。在圖4所示示例中,根據(jù)上述規(guī)則,在三個(gè)階段中所選的待比較節(jié)點(diǎn)對(duì)分別如下表所示<table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table>在如上示例中,假設(shè)每一階段均未發(fā)現(xiàn)有關(guān)系的節(jié)點(diǎn)對(duì),因而每一階段都沒(méi)有對(duì)節(jié)點(diǎn)執(zhí)行任何操作,例如合并操作或父子操作。該示例僅僅是為了簡(jiǎn)化描述待比較節(jié)點(diǎn)對(duì)的分階段選擇過(guò)程而示出。但是,在各個(gè)階段中,如果發(fā)現(xiàn)有關(guān)系的節(jié)點(diǎn)對(duì)并對(duì)節(jié)點(diǎn)對(duì)執(zhí)行了相應(yīng)的合并操作或父子操作,則合并層次結(jié)構(gòu)上的節(jié)點(diǎn)之間的位置關(guān)系以及節(jié)點(diǎn)在塊中的位置都可能發(fā)生變化,從而使得待比較節(jié)點(diǎn)對(duì)的選擇將參考上一階段的集成結(jié)果作出。有關(guān)具體的分階段按塊集成過(guò)程將隨后參考圖7A、圖7B和圖7C所示示例來(lái)具體描述。圖5示出在標(biāo)記概念節(jié)點(diǎn)的情況下,用于確定節(jié)點(diǎn)對(duì)關(guān)系的關(guān)系確定單元的詳細(xì)框圖。如前所述,概念節(jié)點(diǎn)的識(shí)別可以作為預(yù)處理裝置102所執(zhí)行的處理的一部分。在預(yù)處理裝置102中,從層次結(jié)構(gòu)上的節(jié)點(diǎn)中識(shí)別出概念節(jié)點(diǎn),對(duì)概念節(jié)點(diǎn)進(jìn)行標(biāo)記并記錄其相應(yīng)概念。在圖5所示示例中,關(guān)系確定單元201包括概念節(jié)點(diǎn)識(shí)別部件501、概念節(jié)點(diǎn)對(duì)關(guān)系確定部件502和一般節(jié)點(diǎn)對(duì)關(guān)系確定部件503。對(duì)于來(lái)自待比較節(jié)點(diǎn)對(duì)存儲(chǔ)器1053的待比較節(jié)點(diǎn)對(duì),概念節(jié)點(diǎn)識(shí)別部件501首先識(shí)別其中的概念節(jié)點(diǎn)。如果待比較節(jié)點(diǎn)對(duì)中的兩個(gè)節(jié)點(diǎn)都是概念節(jié)點(diǎn),則概念節(jié)點(diǎn)對(duì)關(guān)系確定部件502基于之前記錄的相應(yīng)節(jié)點(diǎn)的概念來(lái)確定該節(jié)點(diǎn)對(duì)的關(guān)系。對(duì)于包含非概念節(jié)點(diǎn)的待比較節(jié)點(diǎn)對(duì),則由一般節(jié)點(diǎn)對(duì)關(guān)系確定部件503確定節(jié)點(diǎn)對(duì)之間的關(guān)系。如前所述,通過(guò)區(qū)分概念節(jié)點(diǎn)和非概念節(jié)點(diǎn),可以盡早發(fā)現(xiàn)層次結(jié)構(gòu)上的匹配節(jié)點(diǎn),從而提高層次結(jié)構(gòu)的集成效率。圖6是用于說(shuō)明針對(duì)合并操作的深度匹配情況復(fù)查過(guò)程的流程圖。該過(guò)程主要針對(duì)節(jié)點(diǎn)對(duì)之間的合并操作。當(dāng)操作確定單元202確定兩個(gè)節(jié)點(diǎn)將被執(zhí)行合并操作的時(shí)候,為了避免操作錯(cuò)誤,本發(fā)明建議不要立即執(zhí)行合并操作,而是首先將其中一個(gè)節(jié)點(diǎn)與另一節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)進(jìn)行比較,以復(fù)査是否有更好的操作存在。之所以需要在合并之前進(jìn)行復(fù)査是出于以下方面的考量??剂糠謩e來(lái)自層次結(jié)構(gòu)Ll和L2的兩組節(jié)點(diǎn)"玩具—益智"和"玩具—益智/魔術(shù)/幼兒—(益智I魔術(shù)I幼兒)"。理想地,兩組節(jié)點(diǎn)中的節(jié)點(diǎn)"益智"應(yīng)該被合并。但是,由于層次結(jié)構(gòu)Ll的節(jié)點(diǎn)"益智"首先與層次結(jié)構(gòu)L2的"益智/魔術(shù)/幼兒"匹配,因此如果直接使用自上而下的集成方法,這兩個(gè)節(jié)點(diǎn)將被合并。但是,這樣的操作是錯(cuò)誤的。為了執(zhí)行更準(zhǔn)確的操作,當(dāng)確定要執(zhí)行"合并"操作時(shí),該操作沒(méi)有被立即執(zhí)行,而是系統(tǒng)首先判斷這兩個(gè)節(jié)點(diǎn)之一是否與另一節(jié)點(diǎn)的子孫節(jié)點(diǎn)之一也發(fā)生匹配。如果是,則將合并操作設(shè)置到該節(jié)點(diǎn)與該子孫節(jié)點(diǎn)之間。例如,在上述情況下,系統(tǒng)檢查"益智"是否與"益智/魔術(shù)/幼兒"的子孫節(jié)點(diǎn)之一匹配。在該示例中,層次結(jié)構(gòu)Ll的"益智"與層次結(jié)構(gòu)L2的"益智/魔術(shù)/幼兒—益智"中的"益智"匹配,因此將在這兩個(gè)節(jié)點(diǎn)之間執(zhí)行合并操作。本領(lǐng)域技術(shù)人員容易理解,通過(guò)復(fù)査可以獲得更準(zhǔn)確的集成結(jié)果并且避免錯(cuò)誤操作,從而可以提高集成效率。圖6的流程圖詳細(xì)示出一般的復(fù)査過(guò)程,其中Ol表示操作1。首先,在步驟601中,輸入節(jié)點(diǎn)對(duì)A-B和已經(jīng)確定的A-B之間的操作01。在步驟602中,判斷操作01是否是合并操作。如果是,則在步驟604和606中分別判斷節(jié)點(diǎn)A是否與節(jié)點(diǎn)B的任意子孫節(jié)點(diǎn)匹配,或者節(jié)點(diǎn)B是否與節(jié)點(diǎn)A的任意子孫節(jié)點(diǎn)匹配。如果在步驟602中確定操作01不是合并操作,則在步驟603中輸出節(jié)點(diǎn)對(duì)A-B和相應(yīng)的操作01。在此情況下,不需要對(duì)節(jié)點(diǎn)對(duì)A-B進(jìn)行深度復(fù)査而直接確定節(jié)點(diǎn)對(duì)之間的合并操作。如果在步驟604中確定節(jié)點(diǎn)A與節(jié)點(diǎn)B的子孫節(jié)點(diǎn)B1匹配,則將合并操作設(shè)置在節(jié)點(diǎn)A和節(jié)點(diǎn)B1之間。同理,如果在步驟606中確定節(jié)點(diǎn)B與節(jié)點(diǎn)A的子孫節(jié)點(diǎn)Al匹配,則將合并操作設(shè)置在節(jié)點(diǎn)B和節(jié)點(diǎn)Al之間。如果在步驟604和606中確定節(jié)點(diǎn)A和B都不與對(duì)方的子孫節(jié)點(diǎn)匹配,則在步驟608中輸出節(jié)點(diǎn)對(duì)A-B和相應(yīng)的操作01。在此情況下,仍然在節(jié)點(diǎn)A-B之間設(shè)置合并操作。下面,將參考圖7A、圖7B和圖7C來(lái)詳細(xì)描述根據(jù)本發(fā)明的多階段按塊集成過(guò)程的示例。應(yīng)該理解,圖中所示示例僅僅是出于舉例說(shuō)明的目的而給出的,其用于說(shuō)明根據(jù)本發(fā)明的多階段按塊集成過(guò)程的基本思想和原理。但是,本發(fā)明并不局限于所示示例,其中的分塊過(guò)程、多階段集成過(guò)程、子層次結(jié)構(gòu)集成過(guò)程都可以由用戶根據(jù)實(shí)際需要自行設(shè)計(jì)。在該示例中,圖7A示出一個(gè)經(jīng)根節(jié)點(diǎn)合并后的合并層次結(jié)構(gòu),其中來(lái)自不同層次結(jié)構(gòu)的異源節(jié)點(diǎn)用不同符號(hào)示出。在圖7A所示示例中,該層次結(jié)構(gòu)例如被分成三塊,即塊1、塊2和塊3。塊1包含第一層節(jié)點(diǎn),塊2包含第二、三層節(jié)點(diǎn)塊3包含第四層節(jié)點(diǎn)。注意,圖7A所示合并層次結(jié)構(gòu)可能包含更多層次以及更多分塊,但是為了描述簡(jiǎn)明,圖中沒(méi)有詳細(xì)示出。圖7B-1和圖7B-2示出合并操作后的層次結(jié)構(gòu)的一個(gè)示例。在該示例中,來(lái)自不同層次結(jié)構(gòu)的節(jié)點(diǎn)Al與Bll被合并,從而得到圖7B-1和圖7B-2所示的變化后的合并層次結(jié)構(gòu)。圖7B-1和圖7B-2之間的差別在于對(duì)于以合并節(jié)點(diǎn)Bll(Al)為根節(jié)點(diǎn)的子層次結(jié)構(gòu)的分塊方式不同。在圖7B-1所示示例中,子層次結(jié)構(gòu)被分成三塊,即塊l'、塊2'和塊3',它們分別包含子層次結(jié)構(gòu)上第一、第二和第三層節(jié)點(diǎn),而在圖7B-2所示示例中,子層次結(jié)構(gòu)被分成兩塊,即塊1'和塊2',其中塊l'包含子層次結(jié)構(gòu)的第一層節(jié)點(diǎn),塊2'包含子層次結(jié)構(gòu)的第二和第三層節(jié)點(diǎn)。圖7C-1和圖7C-2示出父子操作后的層次結(jié)構(gòu)的一個(gè)示例。在該示例中,來(lái)自不同層次結(jié)構(gòu)的節(jié)點(diǎn)Al與Bll被執(zhí)行父子操作,其中以節(jié)點(diǎn)Bll為父節(jié)點(diǎn)并以節(jié)點(diǎn)Al為子節(jié)點(diǎn)。類似于圖7B-1和圖7B-2,圖7C-1和圖7C-2之間的差別也在于對(duì)于子層次結(jié)構(gòu)的分塊方式不同。當(dāng)然,對(duì)于子層次結(jié)構(gòu)的分塊方式并不局限于圖中所示示例,子層次結(jié)構(gòu)的分塊方式可以延用原整體層次結(jié)構(gòu)的分塊方式,也可以由用戶根據(jù)實(shí)際需求另行設(shè)計(jì)。根據(jù)本發(fā)明,在一個(gè)實(shí)施例中,當(dāng)在某一階段對(duì)節(jié)點(diǎn)對(duì)執(zhí)行了操作(例如,合并操作或父子操作)之后,沒(méi)有立即進(jìn)入下一階段,而是在下一階段的處理之前首先對(duì)經(jīng)操作形成的子層次結(jié)構(gòu)進(jìn)行集成。對(duì)于子層次結(jié)構(gòu)的集成可以采取根據(jù)本發(fā)明的多階段按塊集成方式,也可以采取本領(lǐng)域公知的其他層次結(jié)構(gòu)集成方式。在進(jìn)入下一階段之后,待比較節(jié)點(diǎn)對(duì)的選擇將參考前一階段生成的子層次結(jié)構(gòu),從而刪除了部分已經(jīng)過(guò)子層次結(jié)構(gòu)集成的節(jié)點(diǎn),從而達(dá)到縮短集成時(shí)間和提高集成速度的效果。具體而言,在圖7A中,按照前文所述的分塊規(guī)則作出如下表所示的待比較節(jié)點(diǎn)對(duì)選擇(表2)<table>tableseeoriginaldocumentpage25</column></row><table>在對(duì)子層次結(jié)構(gòu)進(jìn)行集成之后,在表2中的隨后階段(例如第3、4和5階段)中的待比較節(jié)點(diǎn)對(duì)的選擇將參考上一階段(即第2階段)中子層次結(jié)構(gòu)的集成結(jié)果。具體而言,根據(jù)一個(gè)實(shí)施例,在隨后的階段中,子層次結(jié)構(gòu)上的根節(jié)點(diǎn)以下的所有子孫節(jié)點(diǎn)都不再參與隨后階段的處理,即在圖7B-1所示示例中,包含層次結(jié)構(gòu)上的節(jié)點(diǎn)All、A12,Blll、Alll、A112、Bllll、B1112、Allll和A1112的節(jié)點(diǎn)對(duì)在隨后階段的處理中都不再被選為待比較節(jié)點(diǎn)對(duì),這是因?yàn)樵趯哟谓Y(jié)構(gòu)上有關(guān)這些節(jié)點(diǎn)的關(guān)系已經(jīng)在之前的階段中被討論過(guò)。當(dāng)然,對(duì)于待比較節(jié)點(diǎn)對(duì)的過(guò)濾和選擇并不局限于上述規(guī)則。事實(shí)上,經(jīng)過(guò)以上子層次結(jié)構(gòu)的集成,表2將轉(zhuǎn)變?yōu)楸?'(表2,)階段待比較節(jié)點(diǎn)對(duì)節(jié)點(diǎn)對(duì)距離3(A21,B12)(A22,B12)4圖7B-2所示示例的集成操作與圖7B-1類似,這里不再贅述。參考圖7C-1和圖7C-2,它們示出在節(jié)點(diǎn)Al和節(jié)點(diǎn)Bll之間執(zhí)行了父子操作之后的集成操作的示例。如圖7C-1所示,在以Bll為根節(jié)點(diǎn)的子層次結(jié)構(gòu)上,其待比較節(jié)點(diǎn)對(duì)的選擇如下表所示(表4)階段待比較節(jié)點(diǎn)對(duì)節(jié)點(diǎn)對(duì)距離r(Al,Blll)22,(A1,B1111)(A1,B1112)(Bill,All)(Bill,A12)33,(All,Bllll)(All,B1112)(A12,Bllll)(A12,Bll12)(Blll,Alll)(Bill,A112)(Blll,Allll)(Bill,All12)44,(Bllll,Alll)(Bl111,A112)(Bll12,Alll)(Bll12,A112)(B1111,Allll)(Bllll,A1112)(B1112,Allll)(Bll12,All12)5在對(duì)子層次結(jié)構(gòu)進(jìn)行集成之后,在表2中的隨后階段(例如第3、4和5階段)中的待比較節(jié)點(diǎn)對(duì)的選擇將參考上一階段(即第2階段)中子層次結(jié)構(gòu)的集成結(jié)果。具體而言,根據(jù)一個(gè)實(shí)施例,在隨后的階段中,作為子節(jié)點(diǎn)被操作的節(jié)點(diǎn)及其所有子孫節(jié)點(diǎn)都不再參與隨后階段的處理,即在圖7C-1所示示例中,包含層次結(jié)構(gòu)上的節(jié)點(diǎn)Al、All、A12、Alll、A112、Alll和A1112的節(jié)點(diǎn)對(duì)在隨后階段的處理中都不再被選為待比較節(jié)點(diǎn)對(duì),這是因?yàn)樵趯哟谓Y(jié)構(gòu)上有關(guān)這些節(jié)點(diǎn)的關(guān)系已經(jīng)在之前的階段中被討論過(guò)。當(dāng)然,對(duì)于待比較節(jié)點(diǎn)對(duì)的過(guò)濾和選擇并不局限于上述規(guī)則。圖7C-2所示示例的集成操作與圖7C-1類似,這里不再贅述。以上已經(jīng)參考附圖對(duì)根據(jù)本發(fā)明實(shí)施例的多階段分塊層次結(jié)構(gòu)集成方法和系統(tǒng)進(jìn)行了詳細(xì)描述。根據(jù)以上描述可以看出,本發(fā)明具有以下效果在層次結(jié)構(gòu)的集成過(guò)程中,節(jié)點(diǎn)之間的比較和集成被逐步(逐個(gè)階段)執(zhí)行。具體地講,節(jié)點(diǎn)的比較和集成過(guò)程被分成若干階段,其中越可能具有關(guān)系的節(jié)點(diǎn)對(duì)被越早地比較和集成。為了盡早識(shí)別出有關(guān)系的節(jié)點(diǎn),本發(fā)明還提出"概念節(jié)點(diǎn)"的運(yùn)用,通過(guò)檢查和標(biāo)記概念節(jié)點(diǎn),可以在集成過(guò)程中盡早發(fā)現(xiàn)匹配的節(jié)點(diǎn)。另外,通過(guò)檢査無(wú)關(guān)系節(jié)點(diǎn)和參考前一階段的集成結(jié)果,本發(fā)明可以避免節(jié)點(diǎn)之間發(fā)生不必要的比較,因?yàn)樵诩蛇^(guò)程中,識(shí)別出的無(wú)關(guān)系的節(jié)點(diǎn)對(duì)的所有子孫節(jié)點(diǎn)或者在前一階段中已經(jīng)處理過(guò)的部分節(jié)點(diǎn)在隨后階段的集成中將被忽略,從而可以節(jié)省時(shí)間并提高集成速度。另外,本發(fā)明還提出對(duì)于深度匹配情況的復(fù)查,S卩,為了避免錯(cuò)誤的操作,對(duì)于兩個(gè)匹配的節(jié)點(diǎn),將其中一個(gè)節(jié)點(diǎn)與另一節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)進(jìn)行比較以檢査是否存在更好的匹配。通過(guò)以上多種措施的采取,本發(fā)明相對(duì)于現(xiàn)有技術(shù)的集成方案,可以大大提高集成的效率,同時(shí)不影響集成的精確度和召回率。上面參考附圖描述了根據(jù)本發(fā)明的具體實(shí)施例。但是,本發(fā)明并不限于圖中示出的特定配置和處理。并且,為了簡(jiǎn)明起見(jiàn),這里省略對(duì)這些已知方法技術(shù)的詳細(xì)描述。在上述實(shí)施例中,描述和示出了若干具體的步驟作為示例。但是,本發(fā)明的方法過(guò)程并不限于所描述和示出的具體步驟,本領(lǐng)域的技術(shù)人員可以在領(lǐng)會(huì)本發(fā)明的精神之后,作出各種改變、修改和添加,或者改變步驟之間的順序。本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時(shí),本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段可以存儲(chǔ)在機(jī)器可讀介質(zhì)中,或者通過(guò)載波中攜帶的數(shù)據(jù)信號(hào)在傳輸介質(zhì)或者通信鏈路上傳送。"機(jī)器可讀介質(zhì)"可以包括能夠存儲(chǔ)或傳輸信息的任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲(chǔ)器設(shè)備、ROM、閃存、可擦除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載。本發(fā)明可以以其他的具體形式實(shí)現(xiàn),而不脫離其精神和本質(zhì)特征。例如,特定實(shí)施例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此,當(dāng)前的實(shí)施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義,并且,落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在本發(fā)明的范圍之中。權(quán)利要求1.一種用于集成層次結(jié)構(gòu)的方法,包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);對(duì)所述合并層次結(jié)構(gòu)按層分塊,其中每個(gè)塊包含一層或多層節(jié)點(diǎn);以及分多個(gè)階段按塊集成所述合并層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成,其中在每個(gè)所述階段中,選擇所述合并層次結(jié)構(gòu)上距離相等的來(lái)自相同塊或不同塊的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì)并對(duì)所選擇的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較和集成,并且在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。2.如權(quán)利要求1所述的方法,其中所述異源節(jié)點(diǎn)對(duì)的距離是指從其中一個(gè)節(jié)點(diǎn)出發(fā),經(jīng)過(guò)根節(jié)點(diǎn)到達(dá)另一個(gè)節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。3.如權(quán)利要求1所述的方法,其中所述異源節(jié)點(diǎn)對(duì)的距離是指從該異源節(jié)點(diǎn)對(duì)中離根節(jié)點(diǎn)較近的節(jié)點(diǎn)出發(fā),到達(dá)根節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。4.如權(quán)利要求1所述的方法,其中集成所述待比較節(jié)點(diǎn)對(duì)的步驟包括對(duì)所述待比較節(jié)點(diǎn)對(duì)進(jìn)行比較以確定該節(jié)點(diǎn)對(duì)之間的關(guān)系;根據(jù)確定的關(guān)系確定將對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行的操作;以及對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行確定的操作。5.如權(quán)利要求1所述的方法,其中所述合并層次結(jié)構(gòu)被分成兩個(gè)塊,第一塊由第一層節(jié)點(diǎn)構(gòu)成,第二塊由其余層節(jié)點(diǎn)構(gòu)成,并且所述多個(gè)階段由以下三個(gè)階段構(gòu)成第一階段,選擇所述第一塊中的異源節(jié)點(diǎn)對(duì)作為所述待比較節(jié)點(diǎn)對(duì);第二階段,選擇所述第一塊與所述第二塊之間的異源節(jié)點(diǎn)對(duì)作為所述待比較節(jié)點(diǎn)對(duì);以及第三階段,選擇所述第二塊中的異源節(jié)點(diǎn)對(duì)作為所述待比較節(jié)點(diǎn)對(duì)。6.如權(quán)利要求4所述的方法,還包括對(duì)輸入的所述第一和第二層次結(jié)構(gòu)上的節(jié)點(diǎn)執(zhí)行預(yù)處理,以標(biāo)記出概念節(jié)點(diǎn),并確定相關(guān)的概念,并且在確定節(jié)點(diǎn)對(duì)之間的關(guān)系的步驟中,如果所述節(jié)點(diǎn)對(duì)中的節(jié)點(diǎn)都是所述概念節(jié)點(diǎn),則根據(jù)它們的概念確定該節(jié)點(diǎn)對(duì)之間的關(guān)系。7.如權(quán)利要求4所述的方法,其中在確定節(jié)點(diǎn)對(duì)之間的關(guān)系的步驟中,節(jié)點(diǎn)對(duì)之間的關(guān)系是以下三種情況之一有關(guān)系、無(wú)關(guān)系和關(guān)系不確定。8.如權(quán)利要求7所述的方法,其中在確定所述節(jié)點(diǎn)對(duì)之間有關(guān)系的情況下,所述關(guān)系是以下各種關(guān)系之一相同、相似、包括、被包括、交叉、交叉-覆蓋和交叉-被覆蓋。9.如權(quán)利要求8所述的方法,其中根據(jù)確定的節(jié)點(diǎn)對(duì)之間的關(guān)系確定對(duì)相應(yīng)節(jié)點(diǎn)對(duì)執(zhí)行以下操作之一合并操作和父子操作。10.如權(quán)利要求7所述的方法,其中在確定所述節(jié)點(diǎn)對(duì)之間無(wú)關(guān)系的情況下,確定不執(zhí)行任何操作,并且該節(jié)點(diǎn)對(duì)的所有子孫節(jié)點(diǎn)均不再參與隨后階段的處理。11.如權(quán)利要求7所述的方法,其中在確定所選節(jié)點(diǎn)對(duì)之間關(guān)系不確定的情況下,確定不執(zhí)行任何操作。12.如權(quán)利要求9所述的方法,其中在確定將對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行合并操作的情況下,首先確定該節(jié)點(diǎn)對(duì)中的節(jié)點(diǎn)之一是否與另一節(jié)點(diǎn)的子孫節(jié)點(diǎn)之一匹配,如果匹配,則確定將在該節(jié)點(diǎn)和另一節(jié)點(diǎn)的匹配的子孫節(jié)點(diǎn)之間執(zhí)行所述合并操作。13.如權(quán)利要求12所述的方法,其中所述匹配指以下關(guān)系之一相同、包括和交叉-被覆蓋。14.如權(quán)利要求6所述的方法,其中所述概念節(jié)點(diǎn)的概念是在所述概念節(jié)點(diǎn)及其子孫節(jié)點(diǎn)中頻繁出現(xiàn)的項(xiàng)目。15.如權(quán)利要求9所述的方法,其中在對(duì)所述節(jié)點(diǎn)對(duì)A和B執(zhí)行了合并操作的情況下,對(duì)以合并節(jié)點(diǎn)為根節(jié)點(diǎn)的子層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì)進(jìn)行集成,并且所述節(jié)點(diǎn)A和B的所有子孫節(jié)點(diǎn)均不再參與隨后階段的處理。16.如權(quán)利要求9所述的方法,其中在以異源節(jié)點(diǎn)對(duì)中的節(jié)點(diǎn)A為子并以節(jié)點(diǎn)B為父而執(zhí)行父子操作的情況下,對(duì)以所述父節(jié)點(diǎn)B為根節(jié)點(diǎn)的子層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì)進(jìn)行集成,并且所述節(jié)點(diǎn)A及其所有子孫節(jié)點(diǎn)均不再參與隨后階段的處理。17.如權(quán)利要求15或16所述的方法,其中對(duì)所述子層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì)的集成過(guò)程包括對(duì)所述子層次結(jié)構(gòu)按層分塊,其中每個(gè)塊包含一層或多層節(jié)點(diǎn);以及分多個(gè)階段按塊集成所述子層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì)以實(shí)現(xiàn)所述子層次結(jié)構(gòu)內(nèi)部的集成,其中在每個(gè)所述階段中,選擇所述子層次結(jié)構(gòu)上距離相等的來(lái)自相同塊或不同塊的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì)并對(duì)所選擇的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較和集成,并且在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。18.—種用于集成層次結(jié)構(gòu)的系統(tǒng),包括輸入裝置,用于輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);根節(jié)點(diǎn)合并裝置,用于合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);分塊裝置,用于對(duì)所述合并層次結(jié)構(gòu)按層分塊,其中每個(gè)塊包含一層或多層節(jié)點(diǎn);以及多階段集成裝置,用于分多個(gè)階段按塊集成所述合并層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成,其中所述多階段集成裝置包含待比較節(jié)點(diǎn)對(duì)選擇單元,用于在每個(gè)所述階段中選擇所述合并層次結(jié)構(gòu)上距離相等的來(lái)自相同塊或不同塊的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì);以及節(jié)點(diǎn)對(duì)集成單元,用于對(duì)所述待比較節(jié)點(diǎn)對(duì)選擇單元所選擇的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較和集成,其中在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。19.如權(quán)利要求18所述的系統(tǒng),其中所述異源節(jié)點(diǎn)對(duì)的距離是指從其中一個(gè)節(jié)點(diǎn)出發(fā),經(jīng)過(guò)根節(jié)點(diǎn)到達(dá)另一個(gè)節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。20.如權(quán)利要求18所述的系統(tǒng),其中所述異源節(jié)點(diǎn)對(duì)的距離是指從該異源節(jié)點(diǎn)對(duì)中離根節(jié)點(diǎn)較近的節(jié)點(diǎn)出發(fā),到達(dá)根節(jié)點(diǎn)所經(jīng)歷的塊的數(shù)目。21.如權(quán)利要求18所述的系統(tǒng),其中所述節(jié)點(diǎn)對(duì)集成單元包括關(guān)系確定單元,用于對(duì)所述待比較節(jié)點(diǎn)對(duì)選擇單元所選的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較以確定該節(jié)點(diǎn)對(duì)之間的關(guān)系,操作確定單元,用于根據(jù)所述關(guān)系確定單元確定的關(guān)系確定將對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行的操作,以及操作執(zhí)行單元,用于對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行所述操作確定單元所確定的操作。22.如權(quán)利要求18所述的系統(tǒng),其中所述分塊裝置將所述合并層次結(jié)構(gòu)分成兩個(gè)塊,第一塊由第一層節(jié)點(diǎn)構(gòu)成,第二塊由其余層節(jié)點(diǎn)構(gòu)成,并且所述多階段集成裝置分三個(gè)階段執(zhí)行所述異源節(jié)點(diǎn)對(duì)的集成,所述三個(gè)階段包括第一階段,所述待比較節(jié)點(diǎn)對(duì)選擇單元選擇所述第一塊中的異源節(jié)點(diǎn)對(duì)作為所述待比較節(jié)點(diǎn)對(duì);第二階段,所述待比較節(jié)點(diǎn)對(duì)選擇單元選擇所述第一塊與所述第二塊之間的異源節(jié)點(diǎn)對(duì)作為所述待比較節(jié)點(diǎn)對(duì);以及第三階段,所述待比較節(jié)點(diǎn)對(duì)選擇單元選擇所述第二塊中的異源節(jié)點(diǎn)對(duì)作為所述待比較節(jié)點(diǎn)對(duì)。23.如權(quán)利要求21所述的系統(tǒng),還包括預(yù)處理裝置,用于對(duì)輸入的所述第一和第二層次結(jié)構(gòu)上的節(jié)點(diǎn)執(zhí)行預(yù)處理,以標(biāo)記出概念節(jié)點(diǎn),并確定相關(guān)的概念,并且所述關(guān)系確定單元進(jìn)一步包括概念節(jié)點(diǎn)識(shí)別部件,用于識(shí)別輸入的節(jié)點(diǎn)對(duì)中的概念節(jié)點(diǎn),并標(biāo)記這些概念;概念節(jié)點(diǎn)對(duì)關(guān)系確定部件,用于在所選節(jié)點(diǎn)對(duì)中的兩個(gè)節(jié)點(diǎn)都是所述概念節(jié)點(diǎn)的情況下,根據(jù)它們的概念確定該節(jié)點(diǎn)對(duì)之間的關(guān)系;以及一般節(jié)點(diǎn)對(duì)關(guān)系確定部件,用于確定包含非概念節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)之間的關(guān)系。24.如權(quán)利要求21所述的系統(tǒng),其中所述關(guān)系確定單元確定所述節(jié)點(diǎn)對(duì)之間的關(guān)系是以下三種情況之一有關(guān)系、無(wú)關(guān)系和關(guān)系不確定。25.如權(quán)利要求24所述的系統(tǒng),其中在確定節(jié)點(diǎn)對(duì)之間有關(guān)系的情況下,所述關(guān)系確定單元確定所述節(jié)點(diǎn)對(duì)之間的關(guān)系是以下各種關(guān)系之一相同、相似、包括、被包括、交叉、交叉-覆蓋和交叉-被覆蓋。26.如權(quán)利要求24所述的系統(tǒng),其中所述操作確定單元根據(jù)所述關(guān)系確定單元確定有關(guān)系的節(jié)點(diǎn)對(duì)之間的關(guān)系確定將對(duì)該節(jié)點(diǎn)對(duì)執(zhí)行以下操作之一合并操作和父子操作。27.如權(quán)利要求24所述的系統(tǒng),其中所述多階段集成裝置還包括無(wú)關(guān)系節(jié)點(diǎn)對(duì)存儲(chǔ)器,用于存儲(chǔ)在一個(gè)階段中被所述關(guān)系確定單元確定為無(wú)關(guān)系的節(jié)點(diǎn)對(duì),并且其中在隨后的階段中,所述待比較節(jié)點(diǎn)對(duì)選擇單元參考所述無(wú)關(guān)系節(jié)點(diǎn)對(duì)存儲(chǔ)器,從所選擇的所述異源節(jié)點(diǎn)對(duì)中刪除掉所述無(wú)關(guān)系的節(jié)點(diǎn)對(duì)及其所有子孫節(jié)點(diǎn)組成的節(jié)點(diǎn)對(duì),以得到所述待比較節(jié)點(diǎn)對(duì)。28.如權(quán)利要求26所述的系統(tǒng),其中當(dāng)所述操作確定單元確定將對(duì)節(jié)點(diǎn)對(duì)執(zhí)行合并操作時(shí),所述操作確定單元首先確定該節(jié)點(diǎn)對(duì)中的節(jié)點(diǎn)之一是否與另一節(jié)點(diǎn)的子孫節(jié)點(diǎn)之一匹配,如果匹配,則確定將在該節(jié)點(diǎn)和另一節(jié)點(diǎn)的匹配的子孫節(jié)點(diǎn)之間執(zhí)行所述合并操作。29.如權(quán)利要求26所述的系統(tǒng),其中所述多階段集成裝置還包括子層次結(jié)構(gòu)集成單元,用于在所述操作執(zhí)行單元對(duì)節(jié)點(diǎn)對(duì)A和B執(zhí)行了合并操作的情況下,對(duì)以合并節(jié)點(diǎn)為根節(jié)點(diǎn)的子層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì)進(jìn)行集成,并且在隨后的階段中,所述待比較節(jié)點(diǎn)對(duì)選擇單元參考所述子層次結(jié)構(gòu),從所選擇的所述異源節(jié)點(diǎn)對(duì)中刪除掉包含所述節(jié)點(diǎn)A和B的子孫節(jié)點(diǎn)的異源節(jié)點(diǎn)對(duì),以得到所述待比較節(jié)點(diǎn)對(duì)。30.如權(quán)利要求26所述的系統(tǒng),其中所述多階段集成裝置還包括子層次結(jié)構(gòu)集成單元,用于在所述操作執(zhí)行單元以節(jié)點(diǎn)A為子并以節(jié)點(diǎn)B為父對(duì)該節(jié)點(diǎn)對(duì)執(zhí)行父子操作的情況下,對(duì)以所述父節(jié)點(diǎn)B為根節(jié)點(diǎn)的子層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì)進(jìn)行集成,并且在隨后的階段中,所述待比較節(jié)點(diǎn)對(duì)選擇單元參考所述子層次結(jié)構(gòu),從所選擇的所述異源節(jié)點(diǎn)對(duì)中刪除掉包含所述節(jié)點(diǎn)A及其所有子孫節(jié)點(diǎn)的異源節(jié)點(diǎn)對(duì),以得到所述待比較節(jié)點(diǎn)對(duì)。31.—種用于集成層次結(jié)構(gòu)的方法,包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);對(duì)輸入的所述第一和第二層次結(jié)構(gòu)上的節(jié)點(diǎn)分別執(zhí)行預(yù)處理,以識(shí)別出概念節(jié)點(diǎn),并確定相關(guān)的概念;合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);以及參考識(shí)別出的所述概念節(jié)點(diǎn)及其概念集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成。32.如權(quán)利要求31所述的方法,其中所述集成是分階段進(jìn)行的,在每個(gè)所述階段中選擇所述第一和第二層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì);確定所選待比較節(jié)點(diǎn)對(duì)的關(guān)系,其中如果所述節(jié)點(diǎn)對(duì)中的兩個(gè)節(jié)點(diǎn)都是概念節(jié)點(diǎn),則根據(jù)它們的概念確定該節(jié)點(diǎn)對(duì)的關(guān)系;根據(jù)確定的關(guān)系確定將對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行的操作;以及對(duì)所述節(jié)點(diǎn)對(duì)執(zhí)行所確定的操作以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成。33.—種用于集成層次結(jié)構(gòu)的方法,包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);以及分階段集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成,其中在每個(gè)所述階段中識(shí)別并存儲(chǔ)無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì),并且無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì)的子孫節(jié)點(diǎn)所組成的異源節(jié)點(diǎn)對(duì)均不再參與隨后階段的處理。34.—種用于集成層次結(jié)構(gòu)的系統(tǒng),包括用于輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的裝置;用于對(duì)輸入的所述第一和第二層次結(jié)構(gòu)上的節(jié)點(diǎn)分別執(zhí)行預(yù)處理,以識(shí)別出概念節(jié)點(diǎn),并確定相關(guān)的概念的裝置;用于合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu)的裝置;以及用于參考識(shí)別出的所述概念節(jié)點(diǎn)及其概念集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成的裝置。35.—種用于集成層次結(jié)構(gòu)的系統(tǒng),包括用于輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的裝置;用于合并所述第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu)的裝置;以及用于分階段集成所述合并層次結(jié)構(gòu)上的所有異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成的裝置,其中在每個(gè)所述階段中識(shí)別并存儲(chǔ)無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì),并且無(wú)關(guān)系的異源節(jié)點(diǎn)對(duì)的子孫節(jié)點(diǎn)所組成的異源節(jié)點(diǎn)對(duì)均不再參與隨后階段的處理。全文摘要本發(fā)明提供了層次結(jié)構(gòu)集成方法和系統(tǒng)。所述方法包括輸入第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu);合并第一層次結(jié)構(gòu)和第二層次結(jié)構(gòu)的根節(jié)點(diǎn)以得到合并層次結(jié)構(gòu);對(duì)合并層次結(jié)構(gòu)按層分塊,其中每個(gè)塊包含一層或多層節(jié)點(diǎn);以及分多個(gè)階段按塊集成所述合并層次結(jié)構(gòu)上的異源節(jié)點(diǎn)對(duì),以實(shí)現(xiàn)所述第一和第二層次結(jié)構(gòu)的集成,其中在每個(gè)階段中,選擇合并層次結(jié)構(gòu)上距離相等的異源節(jié)點(diǎn)對(duì)作為待比較節(jié)點(diǎn)對(duì)并對(duì)所選擇的待比較節(jié)點(diǎn)對(duì)進(jìn)行比較和集成,并且在不同階段之間,在先階段中所選待比較節(jié)點(diǎn)對(duì)的距離小于在后階段中所選待比較節(jié)點(diǎn)對(duì)的距離。利用根據(jù)本發(fā)明的層次結(jié)構(gòu)集成方法和系統(tǒng),可以大大提高集成的效率,同時(shí)不影響集成的精確度和召回率。文檔編號(hào)G06F17/30GK101593188SQ20081011032公開(kāi)日2009年12月2日申請(qǐng)日期2008年5月30日優(yōu)先權(quán)日2008年5月30日發(fā)明者胡長(zhǎng)建,凱趙申請(qǐng)人:日電(中國(guó))有限公司