国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法和設(shè)備與流程

      文檔序號(hào):12041696閱讀:194來(lái)源:國(guó)知局
      對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法和設(shè)備與流程
      本申請(qǐng)總體上涉及數(shù)據(jù)處理和數(shù)據(jù)挖掘的領(lǐng)域,尤其涉及對(duì)實(shí)體之間的實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法和設(shè)備。

      背景技術(shù):
      隨著信息技術(shù)的發(fā)展,產(chǎn)生了海量的并且仍在不斷增長(zhǎng)的信息,例如新聞、博客、微博中的信息等。所產(chǎn)生的信息中包含很多實(shí)體以及各個(gè)實(shí)體之間的實(shí)體關(guān)系模式。如果能夠從所產(chǎn)生的信息中提取各個(gè)實(shí)體及其之間的實(shí)體關(guān)系模式,則可以利用所提取的各個(gè)實(shí)體及其之間的實(shí)體關(guān)系模式更有效地進(jìn)行信息檢索、知識(shí)挖掘、科學(xué)假設(shè)產(chǎn)生等等。但是,所產(chǎn)生的信息一般是非結(jié)構(gòu)化的,各種信息中的各個(gè)實(shí)體及其之間的實(shí)體關(guān)系模式也具有各種不同的表述。因此,難以高效地和準(zhǔn)確地從海量的、非結(jié)構(gòu)化的信息中提取各個(gè)實(shí)體及其之間的實(shí)體關(guān)系模式。因此,期望提供一種能夠高效地和準(zhǔn)確地從海量的、非結(jié)構(gòu)化的信息中提取各個(gè)實(shí)體及其之間的實(shí)體關(guān)系模式的方法和設(shè)備,以及能夠高效地和準(zhǔn)確地對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法和設(shè)備。

      技術(shù)實(shí)現(xiàn)要素:
      在下文中將給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。根據(jù)本發(fā)明的實(shí)施例,提供了一種對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,包括:對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞;根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;計(jì)算所提取的子句的實(shí)體關(guān)系模式之間的第一相似度;以及根據(jù)所計(jì)算的子句的實(shí)體關(guān)系模式之間的第一相似度,將子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,其中,提取的步驟包括:對(duì)中語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配,從而保留中語(yǔ)境中與關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在原始句子中的原始位置,并且去除不相關(guān)的詞。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,還包括:根據(jù)實(shí)體關(guān)系模式類中所包含的實(shí)體關(guān)系模式的數(shù)目來(lái)計(jì)算實(shí)體關(guān)系模式類的置信度。根據(jù)本發(fā)明的另一實(shí)施例,提供了一種對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,包括:第一預(yù)處理裝置,用于對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞;第一拆分裝置,用于根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;第一提取裝置,用于提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;第一相似度計(jì)算裝置,用于計(jì)算所提取的子句的實(shí)體關(guān)系模式之間的第一相似度;以及聚類裝置,根據(jù)所計(jì)算的子句的實(shí)體關(guān)系模式之間的第一相似度,將子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,其中,第一提取裝置包括:匹配裝置,用于對(duì)中語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配,從而保留中語(yǔ)境中與關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在原始句子中的原始位置,并且去除不相關(guān)的詞。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,還包括:置信度計(jì)算裝置,用于根據(jù)實(shí)體關(guān)系模式類中所包含的實(shí)體關(guān)系模式的數(shù)目來(lái)計(jì)算實(shí)體關(guān)系模式類的置信度。根據(jù)本發(fā)明的又一實(shí)施例,提供了一種對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,包括:對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞;根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;分別計(jì)算子句的實(shí)體關(guān)系模式與根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法所得到的實(shí)體關(guān)系模式類之間的第二相似度;以及根據(jù)第二相似度,將子句的實(shí)體關(guān)系模式分類到實(shí)體關(guān)系模式類中與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類中。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,其中,分類的步驟包括:根據(jù)第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,來(lái)確定與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,還包括:計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度;以及根據(jù)實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度過(guò)濾假陽(yáng)性實(shí)體關(guān)系。根據(jù)本發(fā)明的再一實(shí)施例,提供了一種對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,包括:第二預(yù)處理裝置,用于對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞;第二拆分裝置,根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;第二提取裝置,用于提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;第二相似度計(jì)算裝置,用于分別計(jì)算子句的實(shí)體關(guān)系模式與根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備所得到的實(shí)體關(guān)系模式類之間的第二相似度;以及分類裝置,用于根據(jù)第二相似度,將子句的實(shí)體關(guān)系模式分類到實(shí)體關(guān)系模式類中與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類中。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,其中,分類裝置包括:實(shí)體關(guān)系模式類確定裝置,用于根據(jù)第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,來(lái)確定與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類。根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,還包括:強(qiáng)度計(jì)算裝置,用于計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度;以及過(guò)濾裝置,用于根據(jù)實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度過(guò)濾假陽(yáng)性實(shí)體關(guān)系。根據(jù)本發(fā)明,通過(guò)根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列將預(yù)處理后的句子拆分成子句,將復(fù)雜的句子拆分成簡(jiǎn)單的子句,可以提高實(shí)體及其之間的實(shí)體關(guān)系模式的提取的準(zhǔn)確性,并且可以有效緩解數(shù)據(jù)稀疏性帶來(lái)的問(wèn)題。另外,本申請(qǐng)不需要對(duì)原始句子進(jìn)行句法分析,從而防止句法分析錯(cuò)誤的引入。而且,本發(fā)明可以適用于從非標(biāo)注語(yǔ)料中提取實(shí)體及其之間的實(shí)體關(guān)系模式,因此應(yīng)用領(lǐng)域廣泛。附圖說(shuō)明本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書(shū)中并且形成本說(shuō)明書(shū)的一部分,而且用來(lái)進(jìn)一步舉例說(shuō)明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中:圖1是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法的示意性流程圖;圖2是示出根據(jù)本發(fā)明的實(shí)施例的提取拆分后的子句的實(shí)體關(guān)系模式的示意性流程圖;圖3是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式之間的第一相似度的示意性流程圖;圖4是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度的示意性流程圖;圖5是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度的示意性流程圖;圖6是示出根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法的示意性流程圖;圖7是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備的示意性框圖;圖8是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備中的第一提取裝置的示意性框圖;圖9是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第一相似度計(jì)算裝置的示意性框圖;圖10是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第一字符串相似度計(jì)算裝置的示意性框圖;圖11是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第一語(yǔ)義相似度計(jì)算裝置的示意性框圖;圖12是示出根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備的示意性框圖;圖13是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法的示意性流程圖;圖14是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類之間的第二相似度的示意性流程圖;圖15是示出出根據(jù)本發(fā)明的實(shí)施例的將子句的實(shí)體關(guān)系模式分類到與其相似的實(shí)體關(guān)系模式類中的示意性流程圖;圖16是示出根據(jù)本發(fā)明的實(shí)施例的生成和輸出實(shí)體關(guān)系模式的處理的示意性流程圖;圖17是示出根據(jù)本發(fā)明的另一實(shí)施例的生成和輸出實(shí)體關(guān)系模式的處理的示意性流程圖;圖18是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算實(shí)體關(guān)系模式強(qiáng)度的處理的示意性流程圖;圖19是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖;圖20是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第二相似度計(jì)算裝置的示意性框圖;圖21示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的分類裝置的示意性框圖;圖22是示出根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖;圖23是示出根據(jù)本發(fā)明的又一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖;圖24是示出根據(jù)本發(fā)明的再一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖;以及圖25是示出可用于作為實(shí)施根據(jù)本發(fā)明的實(shí)施例的信息處理設(shè)備的示意性框圖。具體實(shí)施方式在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書(shū)中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施方式的過(guò)程中可以做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),并且這些決定可能會(huì)隨著實(shí)施方式的不同而有所改變。在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu),而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。下面將結(jié)合圖1來(lái)描述根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法。圖1是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法的示意性流程圖。如圖1所示,該處理在S100開(kāi)始。接著,該處理前進(jìn)到S102。在S102,對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞??梢詫?duì)文本信息中的原始句子進(jìn)行各種預(yù)處理,例如分句、分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等。命名實(shí)體識(shí)別可以識(shí)別文本信息中的原始句子中表示實(shí)體的實(shí)體詞。例如,在生物醫(yī)學(xué)領(lǐng)域的文本信息中存在“食物(Food)”和“疾病(Disease)”等實(shí)體,其中表示實(shí)體“食物”的實(shí)體詞例如可以為“<Food>綠茶</Food>”,而表示實(shí)體“疾病”的實(shí)體詞例如可以為“<Disease>腫瘤</Disease>”。因此,通過(guò)上述預(yù)處理,可以得到包含有實(shí)體標(biāo)簽的原始句子,從而可以識(shí)別出原始句子中表示實(shí)體的實(shí)體詞。例如,通過(guò)對(duì)文本信息中的原始句子“結(jié)果表示綠茶對(duì)烏拉坦誘發(fā)昆明種小鼠肺腺癌的發(fā)病率影響不大,但腫瘤指數(shù)I和腫瘤指數(shù)II顯著下降,提示福建綠茶有一定的防癌作用”進(jìn)行上述預(yù)處理,可以得到下面的包含有實(shí)體標(biāo)簽的原始句子“結(jié)果表示<Food>綠茶</Food>對(duì)烏拉坦誘發(fā)昆明種<Disease>小鼠肺腺癌</Disease>的發(fā)病率影響不大,但腫瘤指數(shù)I和腫瘤指數(shù)II顯著下降,提示福建<Food>綠茶</Food>有一定的防<Disease>癌</Disease>作用”,從而識(shí)別出原始句子中表示實(shí)體“食物”的實(shí)體詞“綠茶”、以及表示實(shí)體“疾病”的實(shí)體詞“小鼠肺腺癌”和“癌”。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述命名實(shí)體識(shí)別等預(yù)處理僅是示例性的而非限制性的,還可以采用采用其它的預(yù)處理,只要其能夠識(shí)別原始句子中表示實(shí)體的實(shí)體詞即可。在S102之后,該處理前進(jìn)到S104。在S104,根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句。原始句子一般為非結(jié)構(gòu)性的,原始句子中的各個(gè)實(shí)體之間具有各種各樣的實(shí)體關(guān)系。如果直接對(duì)原始句子進(jìn)行處理,則效率低下,甚至無(wú)法進(jìn)行。因此,需要對(duì)原始句子進(jìn)行簡(jiǎn)化,例如將復(fù)雜的句子拆分為簡(jiǎn)單的句子等。針對(duì)具有不同實(shí)體關(guān)系的原始句子,可以分別采用相應(yīng)的拆分方式來(lái)將復(fù)雜的句子拆分為簡(jiǎn)單的句子。下面針對(duì)幾種具有典型實(shí)體關(guān)系的原始句子,分別說(shuō)明其相應(yīng)的拆分方式。(1.基于獨(dú)立子句的拆分)獨(dú)立實(shí)體關(guān)系表示一個(gè)實(shí)體與另一個(gè)實(shí)體之間的一對(duì)一關(guān)系。如果預(yù)處理后的原始句子包含多個(gè)表示獨(dú)立實(shí)體關(guān)系的獨(dú)立子句,則可將該原始句子直接拆分為多個(gè)獨(dú)立子句。還是以“食物”和“疾病”兩個(gè)實(shí)體為例,假設(shè)預(yù)處理后的原始句子為{食物,疾病,…,食物,疾病,食物,疾病},因?yàn)槠浒鄠€(gè)表示獨(dú)立實(shí)體關(guān)系{食物,疾病}的獨(dú)立子句,因此可將預(yù)處理后的原始句子{食物,疾病,…,食物,疾病,食物,疾病}直接拆分為多個(gè)獨(dú)立子句:{食物,疾病},…,{食物,疾病},{食物,疾病}。更具體地,例如對(duì)于預(yù)處理后的原始句子“結(jié)果表示<Food>綠茶</Food>對(duì)烏拉坦誘發(fā)昆明種<Disease>小鼠肺腺癌</Disease>的發(fā)病率影響不大,但腫瘤指數(shù)I和腫瘤指數(shù)II顯著下降,提示福建<Food>綠茶</Food>有一定的防<Disease>癌</Disease>作用”,其具有如下獨(dú)立實(shí)體關(guān)系{<Food>綠茶</Food>,<Disease>小鼠肺腺癌</Disease>}、{<Food>綠茶</Food>,<Disease>癌</Disease>},因此經(jīng)過(guò)獨(dú)立子句拆分之后可以得到兩個(gè)獨(dú)立子句,分別為“結(jié)果表示<Food>綠茶</Food>對(duì)烏拉坦誘發(fā)昆明種<Disease>小鼠肺腺癌</Disease>的發(fā)病率影響不大”和“但腫瘤指數(shù)I和腫瘤指數(shù)II顯著下降,提示福建<Food>綠茶</Food>有一定的防<Disease>癌</Disease>作用”。在上述示例中,在進(jìn)行獨(dú)立子句拆分時(shí),還考慮了原始句子中的連接詞,例如“但”等,并且將連接詞前后的部分拆分到不同的獨(dú)立子句中。(2.基于實(shí)體關(guān)系的拆分)可以根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系。關(guān)系詞本體可以預(yù)先設(shè)定和存儲(chǔ),關(guān)系詞本體中包含了表示各種實(shí)體的實(shí)體詞和表示各種實(shí)體之間的實(shí)體關(guān)系的關(guān)系詞。通過(guò)參考關(guān)系詞本體,可以識(shí)別預(yù)處理后的原始句子中的實(shí)體詞之間的實(shí)體關(guān)系,例如可以識(shí)別預(yù)處理后的原始句子中各個(gè)實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列。在識(shí)別出預(yù)處理后的原始句子中的實(shí)體詞之間的實(shí)體關(guān)系之后,可以根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句。下面詳細(xì)說(shuō)明幾種典型的實(shí)體關(guān)系及其相應(yīng)的拆分方式。(2.1多對(duì)多實(shí)體關(guān)系a)還是以“食物”和“疾病”兩個(gè)實(shí)體為例。多對(duì)多關(guān)系a為具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{食物1,食物2,…,食物m,關(guān)系詞,疾病1,疾病2,…,疾病n},其中,m和n都是大于或等于2的自然數(shù)。注意,例如,上述關(guān)系詞可以從關(guān)系詞本體中獲得,但是這僅是示例性的而非限制性的,還可以采用其它方式獲得上述關(guān)系詞。對(duì)于多對(duì)多關(guān)系a,可以將關(guān)系詞之前的多個(gè)連續(xù)的實(shí)體“食物1”、“食物2”、…、“食物m”合并為一個(gè)復(fù)合實(shí)體“食物1-m”,并且將關(guān)系詞之后的多個(gè)連續(xù)的實(shí)體合并為一個(gè)復(fù)合實(shí)體“疾病1-n”。因此,可以將上述多對(duì)多關(guān)系a:{食物1,食物2,…,食物m,關(guān)系詞,疾病1,疾病2,…,疾病n}拆分為{食物1-m,關(guān)系詞,疾病1-n}。更具體地,對(duì)于預(yù)處理后的原始句子“抗腫瘤作用表明,<Food>富硒綠茶</Food>中<Food>茶多酚</Food>及水提物、普通<Food>綠茶</Food>中<Food>茶多酚</Food>及水提物對(duì)<Disease>人肺癌細(xì)胞A549</Disease>和<Disease>人肝癌細(xì)胞HepG2</Disease>均有明顯的生長(zhǎng)抑制作用,并呈劑量效應(yīng)關(guān)系”,其具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{<Food>富硒綠茶</Food>,<Food>茶多酚</Food>,<Food>綠茶</Food>,<Food>茶多酚</Food>,對(duì)…具有抑制作用,<Disease>人肺癌細(xì)胞A549</Disease>,<Disease>人肝癌細(xì)胞HepG2</Disease>},因此將上述原始句子“抗腫瘤作用表明,<Food>富硒綠茶</Food>中<Food>茶多酚</Food>及水提物、普通<Food>綠茶</Food>中<Food>茶多酚</Food>及水提物對(duì)<Disease>人肺癌細(xì)胞A549</Disease>和<Disease>人肝癌細(xì)胞HepG2</Disease>均有明顯的生長(zhǎng)抑制作用,并呈劑量效應(yīng)關(guān)系”作為一個(gè)子句。(2.2多對(duì)多實(shí)體關(guān)系b)還是以“食物”和“疾病”兩個(gè)實(shí)體為例。多對(duì)多實(shí)體關(guān)系b為具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{食物1,食物2,…,食物m,關(guān)系詞1,疾病1,關(guān)系詞2,疾病2,…,關(guān)系詞n,疾病n},其中,m和n都是大于或等于2的自然數(shù)。注意,例如,上述關(guān)系詞可以從關(guān)系詞本體中獲得,但是這僅是示例性的而非限制性的,還可以采用其它方式獲得上述關(guān)系詞。對(duì)于多對(duì)多實(shí)體關(guān)系b,可以將關(guān)系詞之前的多個(gè)連續(xù)的實(shí)體“食物1”、“食物2”、…、“食物m”合并為一個(gè)復(fù)合實(shí)體“食物1-m”。因此,可以將上述多對(duì)多關(guān)系b:{食物1,食物2,…,食物m,關(guān)系詞1,疾病1,關(guān)系詞2,疾病2,…,關(guān)系詞n,疾病n}拆分為多個(gè)子句:{食物1-m,關(guān)系詞1,疾病1},{食物1-m,關(guān)系詞2,疾病2},…,{食物1-m,關(guān)系詞n,疾病n}。更具體地,對(duì)于預(yù)處理后的原始句子“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有抗<Disease>氧化</Disease>、抗<Disease>衰老</Disease>、抗<Disease>腫瘤</Disease>、抗<Disease>炎癥</Disease>和殺<Disease>菌<Disease>等多種生物學(xué)效應(yīng)”,其具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>,<Food>綠茶</Food>,<Food>多酯類物質(zhì)</Food>,抗,<Disease>氧化</Disease>,抗,<Disease>衰老</Disease>,抗,<Disease>腫瘤</Disease>,抗,<Disease>炎癥</Disease>,殺,<Disease>菌<Disease>},因此將上述預(yù)處理后的原始句子“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有抗<Disease>氧化</Disease>、抗<Disease>衰老</Disease>、抗<Disease>腫瘤</Disease>、抗<Disease>炎癥</Disease>和殺<Disease>菌<Disease>等多種生物學(xué)效應(yīng)”拆分為以下多個(gè)子句:“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有抗<Disease>氧化</Disease>”、“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有抗<Disease>衰老</Disease>”、“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有抗<Disease>腫瘤</Disease>”、“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有抗<Disease>炎癥</Disease>”以及“<Food>表沒(méi)食子酸兒茶素沒(méi)食子酸酯EGCG</Food>是一種由<Food>綠茶</Food>中提取的具有生物活性的<Food>多酯類物質(zhì)</Food>,它具有殺<Disease>菌<Disease>等多種生物學(xué)效應(yīng)”。(2.3多對(duì)一實(shí)體關(guān)系)還是以“食物”和“疾病”兩個(gè)實(shí)體為例。多對(duì)一實(shí)體關(guān)系為具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{食物1,食物2,…,食物m,關(guān)系詞,疾病},其中,m是大于或等于2的自然數(shù)。注意,例如,上述關(guān)系詞可以從關(guān)系詞本體中獲得,但是這僅是示例性的而非限制性的,還可以采用其它方式獲得上述關(guān)系詞。對(duì)于多對(duì)一實(shí)體關(guān)系,可以將關(guān)系詞之前的多個(gè)連續(xù)的實(shí)體“食物1”、“食物2”、…、“食物m”合并為一個(gè)復(fù)合實(shí)體“食物1-m”。因此,可以將上述多對(duì)一關(guān)系:{食物1,食物2,…,食物m,關(guān)系詞,疾病}拆分為{食物1-m,關(guān)系詞,疾病}。更具體地,對(duì)于預(yù)處理后的原始句子“采用武漢市職工醫(yī)學(xué)院從湖北<Food>綠茶</Food>中提取的<Food>綠茶素(TP-91)</Food>及湖北大學(xué)生命科學(xué)院從<Food>蠶蛹</Food>中提取的<Food>殼多糖</Food>進(jìn)行抗<Disease>腫瘤</Disease>試驗(yàn)研究”,其具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{<Food>綠茶</Food>,<Food>綠茶素(TP-91)</Food>,<Food>蠶蛹</Food>,<Food>殼多糖</Food>,抗,<Disease>腫瘤</Disease>},因此將上述原始句子“采用武漢市職工醫(yī)學(xué)院從湖北<Food>綠茶</Food>中提取的<Food>綠茶素(TP-91)</Food>及湖北大學(xué)生命科學(xué)院從<Food>蠶蛹</Food>中提取的<Food>殼多糖</Food>進(jìn)行抗<Disease>腫瘤</Disease>試驗(yàn)研究”作為一個(gè)子句。(2.4一對(duì)多實(shí)體關(guān)系a)還是以“食物”和“疾病”兩個(gè)實(shí)體為例。一對(duì)多實(shí)體關(guān)系a為具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{食物,關(guān)系詞,疾病1,疾病2,…,疾病n},其中,n是大于或等于2的自然數(shù)。注意,例如,上述關(guān)系詞可以從關(guān)系詞本體中獲得,但是這僅是示例性的而非限制性的,還可以采用其它方式獲得上述關(guān)系詞。對(duì)于一對(duì)多實(shí)體關(guān)系a,可以將關(guān)系詞之后的多個(gè)連續(xù)的實(shí)體“疾病1”、“疾病2”、…、“疾病n”合并為一個(gè)復(fù)合實(shí)體“疾病1-n”。因此,可以將上述一對(duì)多關(guān)系a:{食物,關(guān)系詞,疾病1,疾病2,…,疾病n}拆分為{食物,關(guān)系詞,疾病1-n}。更具體地,對(duì)于預(yù)處理后的原始句子“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>和<Disease>腫瘤</Disease>作用”,其具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{<Food>富硒綠茶</Food>,抗,<Disease>炎癥</Disease>,<Disease>腫瘤</Disease>},因此將上述原始句子“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>和<Disease>腫瘤</Disease>作用”作為一個(gè)子句。(2.5一對(duì)多實(shí)體關(guān)系b)還是以“食物”和“疾病”兩個(gè)實(shí)體為例。一對(duì)多實(shí)體關(guān)系b為具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{食物,關(guān)系詞1,疾病1,關(guān)系詞2,疾病2,…,關(guān)系詞n,疾病n},其中,n是大于或等于2的自然數(shù)。注意,例如,上述關(guān)系詞可以從關(guān)系詞本體中獲得,但是這僅是示例性的而非限制性的,還可以采用其它方式獲得上述關(guān)系詞。對(duì)于一對(duì)多實(shí)體關(guān)系b,可以將上述一對(duì)多關(guān)系b:{食物,關(guān)系詞1,疾病1,關(guān)系詞2,疾病2,…,關(guān)系詞n,疾病n}拆分為以下多個(gè)子句:{食物,關(guān)系詞1,疾病1}、{食物,關(guān)系詞2,疾病2}、…、{食物,關(guān)系詞n,疾病n}。更具體地,對(duì)于預(yù)處理后的原始句子“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥、抑制</Disease>和<Disease>腫瘤</Disease>作用”,其具有如下形式的實(shí)體詞和關(guān)系詞的特定出現(xiàn)序列:{<Food>富硒綠茶</Food>,抗,<Disease>炎癥,抑制,</Disease>和<Disease>腫瘤},因此將上述原始句子“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥、抑制</Disease>和<Disease>腫瘤</Disease>作用”拆分為以下多個(gè)子句:“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥”、“<Food>富硒綠茶</Food>具有抑制</Disease>和<Disease>腫瘤</Disease>作用”。經(jīng)過(guò)上述拆分處理,可以簡(jiǎn)化原始句子結(jié)構(gòu),同時(shí)還可以增加學(xué)習(xí)樣本數(shù)量,緩解由數(shù)據(jù)稀疏性帶來(lái)的問(wèn)題。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,實(shí)體不限于“食物”或“疾病”,還可以是其它實(shí)體。另外,上述說(shuō)明的各種拆分方式僅是示例性的而非限制性的,還可以采用其它適當(dāng)?shù)牟鸱址绞健T赟104之后,該處理前進(jìn)到S106。在S106,提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示。在通過(guò)S104將原始句子拆分成子句之后,可以提取拆分后的子句的實(shí)體關(guān)系模式??梢詫⒆泳涞膶?shí)體關(guān)系模式表示為下面的關(guān)系元組的形式:{prefix,entity1,infix,entity2,suffix},其中,“entity1”表示實(shí)體1,“entity2”表示實(shí)體2,“prefix”表示entity1的前語(yǔ)境,“infix”表示entity1和entity2之間的中語(yǔ)境,而“suffix”表示entity2的后語(yǔ)境。當(dāng)前語(yǔ)境、中語(yǔ)境或后語(yǔ)境不存在時(shí),用空(NULL)表示。另外,一般而言,前語(yǔ)境和后語(yǔ)境沒(méi)有實(shí)體之間的中語(yǔ)境重要,因此也可以在關(guān)系元組中省略前語(yǔ)境和后語(yǔ)境,而僅保留實(shí)體之間的中語(yǔ)境,從而將關(guān)系元組表示為如下形式:{entity1,infix,entity2}。例如,在原始句子“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥、抑制</Disease>和<Disease>腫瘤</Disease>作用”被拆分為以下兩個(gè)子句:“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>”、“<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”之后,可以提取子句“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>”的實(shí)體關(guān)系模式為“NULL<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>NULL”,即實(shí)體1“<Food>富硒綠茶</Food>”的前語(yǔ)境為“NULL”,實(shí)體2“<Disease>炎癥</Disease>”的后語(yǔ)境為“NULL”,而實(shí)體1“<Food>富硒綠茶</Food>”與實(shí)體2“<Disease>炎癥</Disease>”之間的中語(yǔ)境為“具有顯著的抗”;同理,可以提取子句“<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”的實(shí)體關(guān)系模式為“NULL<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”,即實(shí)體1“<Food>富硒綠茶</Food>”的前語(yǔ)境為“NULL”,實(shí)體2“<Disease>炎癥</Disease>”的后語(yǔ)境為“作用”,而實(shí)體1“<Food>富硒綠茶</Food>”與實(shí)體2“<Disease>炎癥</Disease>”之間的中語(yǔ)境為“抑制”。另外,也可以省略前語(yǔ)境和后語(yǔ)境,而僅保留實(shí)體之間的中語(yǔ)境。例如,可以提取子句“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>”的實(shí)體關(guān)系模式為“<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>”;同理,可以提取子句“<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”的實(shí)體關(guān)系模式為“<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>”。下文中,對(duì)關(guān)系元組{prefix,entity1,infix,entity2,suffix}的處理同樣適用于對(duì)關(guān)系元組{entity1,infix,entity2}另外,可以根據(jù)關(guān)系詞本體對(duì)上述提取的子句的實(shí)體關(guān)系模式進(jìn)行泛化,以去除其他無(wú)關(guān)詞。下面結(jié)合圖2來(lái)詳細(xì)說(shuō)明根據(jù)關(guān)系詞本體對(duì)上述提取的子句的實(shí)體關(guān)系模式進(jìn)行泛化的處理。如圖2所示,該處理開(kāi)始于S200。在S200之后,該處理前進(jìn)到S202。在S202,對(duì)中語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配,從而保留中語(yǔ)境中與關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在原始句子中的原始位置,并且去除不相關(guān)的詞。另外,也可以對(duì)前語(yǔ)境和/或后語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配從而保留前語(yǔ)境和/或后語(yǔ)境中與關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在原始句子中的原始位置,并且去除不相關(guān)的詞。還是以上述提取的子句的實(shí)體關(guān)系模式“NULL<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>NULL”和“NULL<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”為例。對(duì)于實(shí)體關(guān)系模式“NULL<Food>富硒綠茶</Food>具有顯著的抗<Disease>炎癥</Disease>NULL”,例如按照最長(zhǎng)匹配策略,將前語(yǔ)境“NULL”、中語(yǔ)境“具有顯著的抗”和后語(yǔ)境“NULL”分別與關(guān)系詞本體進(jìn)行匹配,并且將前語(yǔ)境保留為“NULL”,將中語(yǔ)境保留為“抗”并去除了無(wú)關(guān)詞“具有顯著的”,以及將后語(yǔ)境保留為“NULL”,最終得到泛化后的實(shí)體關(guān)系模式“NULL<Food>富硒綠茶</Food>抗<Disease>炎癥</Disease>NULL”。對(duì)于實(shí)體關(guān)系模式“NULL<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”可以按照同樣的方式進(jìn)行泛化,從而得到泛化后的實(shí)體關(guān)系模式“NULL<Food>富硒綠茶</Food>抑制</Disease>和<Disease>腫瘤</Disease>作用”。該處理在S208結(jié)束。該處理可以根據(jù)關(guān)系詞本體去除前語(yǔ)境、中語(yǔ)境和后語(yǔ)境中的無(wú)關(guān)詞,從而減少了對(duì)后續(xù)處理的干擾,可以提高后續(xù)處理的效率和準(zhǔn)確度。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述根據(jù)關(guān)系詞本體對(duì)提取的實(shí)體關(guān)系模式進(jìn)行泛化的處理僅是示例性的而非限制性的,并且是可選的,即也可以不對(duì)提取的實(shí)體關(guān)系模式進(jìn)行泛化。接著返回參考圖1。在S106之后,該處理前進(jìn)到S108。在S108,計(jì)算所提取的子句的實(shí)體關(guān)系模式之間的第一相似度。在經(jīng)過(guò)S106提取子句的實(shí)體關(guān)系模式之后,可以計(jì)算不同的子句的實(shí)體關(guān)系模式之間的第一相似度??梢杂?jì)算不同的子句的實(shí)體關(guān)系模式之間的字符串相似度,也可以計(jì)算不同的子句的實(shí)體關(guān)系模式之間的語(yǔ)義相似度,或者可以計(jì)算不同的子句的實(shí)體關(guān)系模式之間的字符串相似度和語(yǔ)義相似度兩者。另外,在計(jì)算不同的子句的實(shí)體關(guān)系模式之間的第一相似度時(shí),可以計(jì)算不同的子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境中的至少之一之間的相似度,例如可以計(jì)算不同的子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的相似度。稍后將參考圖3至圖5詳細(xì)描述如何計(jì)算所提取的子句的實(shí)體關(guān)系模式之間的第一相似度。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述采用字符串相似度和/或語(yǔ)義相似度來(lái)計(jì)算不同的子句的實(shí)體關(guān)系模式之間的第一相似度僅是示例性的而非限制性的,還可以采用其它的相似度計(jì)算的方式。在S108之后,該處理前進(jìn)到S110。在S110,根據(jù)所計(jì)算的子句的實(shí)體關(guān)系模式之間的第一相似度,將子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類。在經(jīng)過(guò)S108計(jì)算出不同的子句的實(shí)體關(guān)系模式之間的第一相似度之后,可以根據(jù)所計(jì)算的第一相似度,采用聚類算法對(duì)子句的實(shí)體關(guān)系模式進(jìn)行聚類。聚類算法的示例為KNN(K最鄰近結(jié)點(diǎn)算法),EM(最大期望算法)等。由于這些聚類算法都是本領(lǐng)域比較公知的算法,其具體細(xì)節(jié)在此不再贅述。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,聚類算法不限于上述的KNN和EM,還可以采用其它的聚類算法。最后,該處理在S112處結(jié)束。根據(jù)本實(shí)施例,可以將從原始句子中提取的子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類??梢圆捎镁垲愃玫降膶?shí)體關(guān)系模式類來(lái)提取新的子句的實(shí)體關(guān)系模式,從而提高子句的實(shí)體關(guān)系模式的提取的效率和準(zhǔn)確度。下面結(jié)合圖3至圖5詳細(xì)描述如何計(jì)算所提取的子句的實(shí)體關(guān)系模式之間的第一相似度。圖3是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式之間的第一相似度的示意性流程圖。圖4是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度的示意性流程圖。圖5是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度的示意性流程圖。如圖3所示,該處理開(kāi)始于S300。在S300之后,該處理前進(jìn)到S302。在S302,計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度。如上所述,子句的實(shí)體關(guān)系模式可以用關(guān)系元組{prefix,entity1,infix,entity2,suffix}、或者{entity1,infix,entity2}來(lái)表示。因此,可以通過(guò)計(jì)算不同的子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境中的至少之一之間的字符串相似度,例如可以通過(guò)計(jì)算不同的子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的字符串相似度,來(lái)計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度。假設(shè)子句1的實(shí)體關(guān)系模式為p1,子句2的實(shí)體關(guān)系模式為p2,則實(shí)體關(guān)系模式p1與實(shí)體關(guān)系模式p2之間的第一字符串相似度可以用StringSimilarity(p1,p2)來(lái)表示。稍后將參考圖4詳細(xì)描述如何計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度。在S302之后,該處理前進(jìn)到S304。在S304,計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度。如上所述,子句的實(shí)體關(guān)系模式可以用關(guān)系元組{prefix,entity1,infix,entity2,suffix}、或{entity1,infix,entity2}來(lái)表示。因此,可以通過(guò)計(jì)算不同的子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境中的至少之一之間的語(yǔ)義相似度,例如可以通過(guò)計(jì)算不同的子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的語(yǔ)義相似度,來(lái)計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度。假設(shè)子句1的實(shí)體關(guān)系模式為p1,子句2的實(shí)體關(guān)系模式為p2,則實(shí)體關(guān)系模式p1與實(shí)體關(guān)系模式p2之間的第一語(yǔ)義相似度可以用SemanticSimilarity(p1,p2)來(lái)表示。稍后將參考圖5詳細(xì)描述如何計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度。在S304之后,該處理前進(jìn)到S306。在S306,將第一字符串相似度和第一語(yǔ)義相似度加權(quán)后的結(jié)果作為第一相似度。如上所述,如果實(shí)體關(guān)系模式p1與實(shí)體關(guān)系模式p2之間的第一字符串相似度用StringSimilarity(p1,p2)來(lái)表示,而實(shí)體關(guān)系模式p1與實(shí)體關(guān)系模式p2之間的第一語(yǔ)義相似度用SemanticSimilarity(p1,p2)來(lái)表示,則第一相似度(即最終相似度FinalSimilarity(p1,p2))可以用以下公式來(lái)通過(guò)加權(quán)組合而得到。FinalSimilarity(p1,p2)=θ×SemanticSimilarity(p1,p2)+(1-θ)StringSimilarity(p1,p2)其中,θ為經(jīng)驗(yàn)值,可以用來(lái)均衡字符串相似度和語(yǔ)義相似度的權(quán)重。θ的取值范圍為0≤θ≤1。θ可以預(yù)先設(shè)定,或者可以通過(guò)試驗(yàn)來(lái)確定。下面將結(jié)合圖4詳細(xì)描述如何計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度。如圖4所示,該處理開(kāi)始于S400。在S400之后,該處理前進(jìn)到S402。在S402,分別計(jì)算子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二字符串相似度。如上所述,子句的實(shí)體關(guān)系模式可以用關(guān)系元組{prefix,entity1,infix,entity2,suffix}來(lái)表示。對(duì)前語(yǔ)境prefix可以進(jìn)行最長(zhǎng)公共后匹配(longest-common-back-matching),即從前語(yǔ)境的后面進(jìn)行嚴(yán)格匹配,若匹配則為1,否者為0。對(duì)中語(yǔ)境infix可以進(jìn)行最長(zhǎng)公共前匹配(longest-common-forth-matching),即從中語(yǔ)境infix的前面進(jìn)行嚴(yán)格匹配,若匹配則為1,否則為0。對(duì)后語(yǔ)境suffix進(jìn)行最長(zhǎng)公共后匹配(longest-common-back-matching),即從后語(yǔ)境suffix的后面進(jìn)行嚴(yán)格匹配,若匹配則為1,否者為0。在S402之后,該處理前進(jìn)到S404。在S404,將第二字符串相似度加權(quán)后的結(jié)果作為第一字符串相似度。假設(shè)子句1的實(shí)體關(guān)系模式為p1,子句2的實(shí)體關(guān)系模式為p2,則可以根據(jù)以下公式來(lái)計(jì)算子句1的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與子句2的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二字符串相似度的加權(quán)和。StringSimilarity(p1,p2)=α×match(prefix(p1),prefix(p2))+β×match(infix(p1),infix(p2))+γ×match(suffix(p1),suffix(p2))其中,match(prefix(p1),prefix(p2))表示實(shí)體關(guān)系模式p1的前語(yǔ)境與實(shí)體關(guān)系模式p2的前語(yǔ)境之間的字符串相似度,match(infix(p1),infix(p2))表示實(shí)體關(guān)系模式p1的中語(yǔ)境與實(shí)體關(guān)系模式p2的中語(yǔ)境之間的字符串相似度,而match(suffix(p1),suffix(p2)表示實(shí)體關(guān)系模式p1的后語(yǔ)境與實(shí)體關(guān)系模式p2的后語(yǔ)境之間的字符串相似度,并且α+β+γ=1。由于實(shí)體的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境對(duì)實(shí)體關(guān)系模式相似度計(jì)算的影響程度不同,所以α、β和γ可以采用不同的權(quán)重。本發(fā)明中,α、β和γ的值可以使用MLE(最大似然估計(jì))算法從開(kāi)發(fā)集中估計(jì)得到。例如,可以統(tǒng)計(jì)開(kāi)發(fā)集中關(guān)系詞出現(xiàn)在前語(yǔ)境、中語(yǔ)境和后語(yǔ)境位置的概率,并使用該概率來(lái)表示α、β和γ的值。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述確定α、β和γ的值的方法僅是示例性的而非限制的,還可以采用其它方式來(lái)確定α、β和γ的值,例如可以預(yù)先設(shè)定或者根據(jù)試驗(yàn)來(lái)確定α、β和γ的值。該處理在S406結(jié)束。另外,對(duì)于省略了前語(yǔ)境和后語(yǔ)境的關(guān)系元組{prefix,entity1,infix,entity2,suffix},可以僅計(jì)算子句的實(shí)體關(guān)系模式中的中語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的第二字符串相似度,并且將計(jì)算出的第二字符串相似度作為第一字符串相似度。下面結(jié)合圖5來(lái)詳細(xì)描述如何計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度。如圖5所示,該處理開(kāi)始于S500。在S500之后,該處理前進(jìn)到S502。在S502,分別計(jì)算子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二語(yǔ)義相似度。如上所述,子句的實(shí)體關(guān)系模式可以用關(guān)系元組{prefix,entity1,infix,entity2,suffix}來(lái)表示??梢詤⒖缄P(guān)系詞本體來(lái)判斷子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境在語(yǔ)義上是否相似。在S502之后,該處理前進(jìn)到S504。在S504,將第二語(yǔ)義相似度加權(quán)后的結(jié)果作為第一語(yǔ)義相似度。假設(shè)子句1的實(shí)體關(guān)系模式為p1,子句2的實(shí)體關(guān)系模式為p2,則可以根據(jù)以下公式來(lái)計(jì)算子句1的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與子句2的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二語(yǔ)義相似度的加權(quán)和。SemanticSimilarity(p1,p2)=α×sim(prefix(p1),prefix(p2))+β×sim(infix(p1),infix(p2))+γ×sim(suffix(p1),suffix(p2))其中,sim(prefix(p1),prefix(p2))表示實(shí)體關(guān)系模式p1的前語(yǔ)境與實(shí)體關(guān)系模式p2的前語(yǔ)境之間的語(yǔ)義相似度,sim(infix(p1),infix(p2))表示實(shí)體關(guān)系模式p1的中語(yǔ)境與實(shí)體關(guān)系模式p2的中語(yǔ)境之間的語(yǔ)義相似度,而sim(suffix(p1),suffix(p2)表示實(shí)體關(guān)系模式p1的后語(yǔ)境與實(shí)體關(guān)系模式p2的后語(yǔ)境之間的字符串相似度,并且α+β+γ=1。由于實(shí)體的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境對(duì)實(shí)體關(guān)系模式相似度計(jì)算的影響程度不同,所以α、β和γ可以采用不同的權(quán)重。本發(fā)明中,α、β和γ的值可以使用MLE算法從開(kāi)發(fā)集中估計(jì)得到。例如,可以統(tǒng)計(jì)開(kāi)發(fā)集中關(guān)系詞出現(xiàn)在前語(yǔ)境、中語(yǔ)境和后語(yǔ)境位置的概率,并使用該概率來(lái)表示α、β和γ的值。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述確定α、β和γ的值的方法僅是示例性的而非限制的,還可以采用其它方式來(lái)確定α、β和γ的值,例如可以預(yù)先設(shè)定或者根據(jù)試驗(yàn)來(lái)確定α、β和γ的值。該處理在S506結(jié)束。另外,對(duì)于省略了前語(yǔ)境和后語(yǔ)境的關(guān)系元組{prefix,entity1,infix,entity2,suffix},可以僅計(jì)算子句的實(shí)體關(guān)系模式中的中語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的第二語(yǔ)義相似度,并且將計(jì)算出的第二語(yǔ)義相似度作為第一語(yǔ)義相似度。下面結(jié)合圖6來(lái)描述根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法。圖6是示出根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法的示意性流程圖。圖6中所示的S102至S110的處理與圖1中所示的S102至S110的處理相同,其細(xì)節(jié)在此不再贅述。圖6所示的處理與圖1所示的處理的不同之處在于,圖6所示的處理在S110聚類得到實(shí)體關(guān)系模式類之后前進(jìn)到S111。在S111,根據(jù)實(shí)體關(guān)系模式類中所包含的實(shí)體關(guān)系模式的數(shù)目來(lái)計(jì)算實(shí)體關(guān)系模式類的置信度。假設(shè)經(jīng)過(guò)S110聚類得到了總共k個(gè)實(shí)體關(guān)系模式類,其中k為大于或等于1的自然數(shù)。用Pi表示k個(gè)實(shí)體關(guān)系模式類中的任一個(gè)實(shí)體關(guān)系模式類,其中,i為自然數(shù)并且1≤i≤k??梢愿鶕?jù)下面的公式來(lái)計(jì)算實(shí)體關(guān)系模式類的置信度conf(Pi):其中,Num(Pi)表示實(shí)體關(guān)系模式類Pi中的實(shí)體關(guān)系模式的數(shù)目,而表示k個(gè)實(shí)體關(guān)系模式類中的全部實(shí)體關(guān)系模式的數(shù)目。由以上公式可見(jiàn),實(shí)體關(guān)系模式類Pi的置信度可以用實(shí)體關(guān)系模式類Pi中的實(shí)體關(guān)系模式的數(shù)目與全部實(shí)體關(guān)系模式類中的實(shí)體關(guān)系模式總和之比來(lái)表示。實(shí)體關(guān)系模式類中的每個(gè)實(shí)體關(guān)系模式的置信度與該實(shí)體關(guān)系模式類的置信度相同。可以動(dòng)態(tài)地更新實(shí)體關(guān)系模式類的置信度。稍后將詳細(xì)說(shuō)明動(dòng)態(tài)地更新實(shí)體關(guān)系模式類的置信度的處理。下面結(jié)合圖7至圖12來(lái)說(shuō)明根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備。圖7是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備的示意性框圖。如圖7所示,對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備700包括:第一預(yù)處理裝置702,用于對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞;第一拆分裝置704,用于根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;第一提取裝置706,用于提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;第一相似度計(jì)算裝置708,用于計(jì)算所提取的子句的實(shí)體關(guān)系模式之間的第一相似度;以及聚類裝置710,根據(jù)所計(jì)算的子句的實(shí)體關(guān)系模式之間的第一相似度,將子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類。需要指出的是,在與設(shè)備有關(guān)的實(shí)施例中所涉及的相關(guān)術(shù)語(yǔ)或表述與以上對(duì)根據(jù)本發(fā)明的實(shí)施例的方法的實(shí)施例闡述中所使用的術(shù)語(yǔ)或表述對(duì)應(yīng),在此不再贅述。圖8是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備中的第一提取裝置的示意性框圖。如圖8所示,第一提取裝置706包括:匹配裝置801,用于對(duì)中語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配,從而保留中語(yǔ)境中與關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在原始句子中的原始位置,并且去除不相關(guān)的詞。另外,也可以對(duì)前語(yǔ)境和/或后語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配從而保留前語(yǔ)境和/或后語(yǔ)境中與關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在原始句子中的原始位置,并且去除不相關(guān)的詞。圖9是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第一相似度計(jì)算裝置的示意性框圖。如圖9所示,第一相似度計(jì)算裝置708包括:第一字符串相似度計(jì)算裝置901,用于計(jì)算子句的實(shí)體關(guān)系模式之間的第一字符串相似度;第一語(yǔ)義相似度計(jì)算裝置902,用于計(jì)算子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度;以及第一加權(quán)裝置903,用于將第一字符串相似度和第一語(yǔ)義相似度加權(quán)后的結(jié)果作為第一相似度。圖10是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第一字符串相似度計(jì)算裝置的示意性框圖。如圖10所示,第一字符串相似度計(jì)算裝置901包括:第二字符串相似度計(jì)算裝置1001,用于分別計(jì)算子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二字符串相似度;以及第二加權(quán)裝置1003,用于將第二字符串相似度加權(quán)后的結(jié)果作為第一字符串相似度。另外,對(duì)于省略了前語(yǔ)境和后語(yǔ)境的關(guān)系元組{prefix,entity1,infix,entity2,suffix},可以僅計(jì)算子句的實(shí)體關(guān)系模式中的中語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的第二字符串相似度,并且將計(jì)算出的第二字符串相似度作為第一字符串相似度。圖11是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第一語(yǔ)義相似度計(jì)算裝置的示意性框圖。如圖11所示,第一語(yǔ)義相似度計(jì)算裝置902包括:第二語(yǔ)義相似度計(jì)算裝置1101,用于分別計(jì)算子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二語(yǔ)義相似度;以及第三加權(quán)裝置1103,用于將第二語(yǔ)義相似度加權(quán)后的結(jié)果作為第一語(yǔ)義相似度。另外,對(duì)于省略了前語(yǔ)境和后語(yǔ)境的關(guān)系元組{prefix,entity1,infix,entity2,suffix},可以僅計(jì)算子句的實(shí)體關(guān)系模式中的中語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的中語(yǔ)境之間的第二語(yǔ)義相似度,并且將計(jì)算出的第二語(yǔ)義相似度作為第一語(yǔ)義相似度。圖12是示出根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備的示意性框圖。如圖12所示,對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備1200包括第一預(yù)處理裝置702、第一拆分裝置704、第一提取裝置706、第一相似度計(jì)算裝置708、聚類裝置710和置信度計(jì)算裝置1201。對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備1200中的第一預(yù)處理裝置702、第一拆分裝置704、第一提取裝置706、第一相似度計(jì)算裝置708和聚類裝置710與圖7所示的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備700中的第一預(yù)處理裝置702、第一拆分裝置704、第一提取裝置706、第一相似度計(jì)算裝置708和聚類裝置710相同,其細(xì)節(jié)在此不再贅述。另外,對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備1200中的置信度計(jì)算裝置1201用于根據(jù)實(shí)體關(guān)系模式類中所包含的實(shí)體關(guān)系模式的數(shù)目來(lái)計(jì)算實(shí)體關(guān)系模式類的置信度。上述圖7至圖12中的各個(gè)設(shè)備和/或裝置例如可以被配置成按照相應(yīng)方法中的相應(yīng)步驟的工作方式來(lái)操作。細(xì)節(jié)參見(jiàn)上述針對(duì)根據(jù)本申請(qǐng)的實(shí)施例的方法所闡述的實(shí)施例。在此不再贅述。下面結(jié)合圖13至圖18描述根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法。圖13是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法的示意性流程圖。圖13中所示的S1302至S1306的處理與圖1中所示的S102至S106的處理相同,其細(xì)節(jié)在此不再贅述。如圖13所示,在S1306之后,該方法前進(jìn)到S1308。在S1308,分別計(jì)算子句的實(shí)體關(guān)系模式與根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法所得到的實(shí)體關(guān)系模式類之間的第二相似度。在經(jīng)過(guò)S1306之后,可以得到候選的子句的實(shí)體關(guān)系模式T。假設(shè)經(jīng)過(guò)上述對(duì)實(shí)體關(guān)系進(jìn)行聚類的方法之后得到了k個(gè)實(shí)體關(guān)系模式類{P1,P2,…,Pi,…,Pk-1,Pk},其中,i和k均為自然數(shù),并且1≤i≤k??梢杂?jì)算候選的子句的實(shí)體關(guān)系模式T與k個(gè)實(shí)體關(guān)系模式類{P1,P2,…,Pi,…,Pk-1,Pk}中的每個(gè)實(shí)體關(guān)系模式類Pi之間的第二相似度Similarity(Pi,T)。稍后將結(jié)合圖14詳細(xì)說(shuō)明如何計(jì)算候選的子句的實(shí)體關(guān)系模式T與k個(gè)實(shí)體關(guān)系模式類{P1,P2,…,Pi,…,Pk-1,Pk}中的每個(gè)實(shí)體關(guān)系模式類Pi之間的第二相似度Similarity(Pi,T)。在S1308之后,該方法前進(jìn)到S1310。在S1310,根據(jù)第二相似度,將子句的實(shí)體關(guān)系模式分類到實(shí)體關(guān)系模式類中與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類中。在經(jīng)過(guò)S1308計(jì)算出候選的子句的實(shí)體關(guān)系模式T與k個(gè)實(shí)體關(guān)系模式類{P1,P2,…,Pi,…,Pk-1,Pk}中的每個(gè)實(shí)體關(guān)系模式類Pi之間的第二相似度Similarity(Pi,T)之后,可以將所計(jì)算的第二相似度Similarity(Pi,T)與預(yù)定的閾值進(jìn)行比較,并且根據(jù)比較的結(jié)果將候選的子句的實(shí)體關(guān)系模式T分類到相應(yīng)的實(shí)體關(guān)系模式類中。如果所計(jì)算的第二相似度Similarity(Pi,T)大于預(yù)定的閾值,則將候選的子句的實(shí)體關(guān)系模式T分類到該第二相似度Similarity(Pi,T)所對(duì)應(yīng)的實(shí)體關(guān)系模式類Pi中。最后,該方法在S1312結(jié)束。下面結(jié)合圖14詳細(xì)說(shuō)明計(jì)算子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類之間的第二相似度的處理。圖14是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類之間的第二相似度的示意性流程圖。如圖14所示,該處理開(kāi)始于S1400。在S1400之后,該處理前進(jìn)到S1402。在S1402,分別計(jì)算子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類中的每個(gè)實(shí)體關(guān)系模式之間的第三相似度。如上所述,對(duì)于k個(gè)實(shí)體關(guān)系模式類{P1,P2,…,Pi,…,Pk-1,Pk}中的任一個(gè)實(shí)體關(guān)系模式類Pi,假設(shè)實(shí)體關(guān)系模式類Pi中存在n個(gè)實(shí)體關(guān)系模式{pi,1,pi,2,…,pi,t,…,pi,n-1,pi,n},其中,i,k,t和n均為自然數(shù),并且,1≤i≤k,1≤t≤n。注意,不同的實(shí)體關(guān)系模式類Pi可以具有不同數(shù)目的實(shí)體關(guān)系模式,即n對(duì)于不同的實(shí)體關(guān)系模式類Pi可以具有不同的數(shù)值。可以計(jì)算候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi中的實(shí)體關(guān)系模式pi,t之間的第三相似度FinalSimilarity(pi,t,T)。注意,計(jì)算候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi中的實(shí)體關(guān)系模式pi,t之間的第三相似度FinalSimilarity(pi,t,T)的方法與之前參考圖3至圖5描述的計(jì)算子句的實(shí)體關(guān)系模式之間的第一相似度的方法相同,其具體細(xì)節(jié)在此不再贅述。在S1402之后,該方法前進(jìn)到S1404。在S1404,選擇具有最大值的第三相似度作為第二相似度。在經(jīng)過(guò)S1402計(jì)算出候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi中的實(shí)體關(guān)系模式pi,t之間的第三相似度FinalSimilarity(pi,t,T)之后,可以選擇具有最大值的第三相似度FinalSimilarity(pi,t,T)作為候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的第二相似度Siminlarity(Pi,T)。即,可以根據(jù)下面的公式來(lái)計(jì)算第二相似度Siminlarity(Pi,T):Siminlarity(Pi,T)=Max(FinalSimilarity(pi,t,T)),pi,t∈Pi。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述選擇具有最大值的第三相似度FinalSimilarity(pi,t,T)作為候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的第二相似度Siminlarity(Pi,T)僅是示例性的而非限制性的,還可以采用其它的方法來(lái)計(jì)算候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的第二相似度Siminlarity(Pi,T),例如可以計(jì)算候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi中的實(shí)體關(guān)系模式pi,t之間的第三相似度FinalSimilarity(pi,t,T)的平均值作為上述第二相似度Siminlarity(Pi,T)。下面結(jié)合圖15說(shuō)明將子句的實(shí)體關(guān)系模式分類到與其相似的實(shí)體關(guān)系模式類的處理。圖15是示出出根據(jù)本發(fā)明的實(shí)施例的將子句的實(shí)體關(guān)系模式分類到與其相似的實(shí)體關(guān)系模式類中的示意性流程圖。如圖15所述,該處理開(kāi)始于S1500。在S1500之后,該處理前進(jìn)到S1502。在S1502,根據(jù)第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,來(lái)確定與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類。為了確定候選的子句的實(shí)體關(guān)系模式T屬于哪個(gè)實(shí)體關(guān)系模式類Pi,除了考慮候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的相似度FinalSimilarity(Pi,T)之外,還考慮實(shí)體關(guān)系模式類Pi的置信度conf(Pi)。例如,可以根據(jù)下面的公式來(lái)計(jì)算候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的模式排序Rank(Pi,T):Rank(Pi,T)=conf(Pi)×Similarity(Pi,T)在計(jì)算出候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的模式排序Rank(Pi,T)之后,可以將所計(jì)算的模式排序Rank(Pi,T)與預(yù)定的閾值進(jìn)行比較,并且根據(jù)比較的結(jié)果將候選的子句的實(shí)體關(guān)系模式T分類到相應(yīng)的實(shí)體關(guān)系模式類中。如果所計(jì)算的模式排序Rank(Pi,T)大于預(yù)定的閾值,則將候選的子句的實(shí)體關(guān)系模式T分類到該模式排序Rank(Pi,T)所對(duì)應(yīng)的實(shí)體關(guān)系模式類Pi中。該處理在S1504結(jié)束。下面結(jié)合圖16說(shuō)明根據(jù)本發(fā)明的實(shí)施例的生成和輸出實(shí)體關(guān)系模式的處理。圖16是示出根據(jù)本發(fā)明的實(shí)施例的生成和輸出實(shí)體關(guān)系模式的處理的示意性流程圖。如圖16所示,該處理開(kāi)始于S1600。在S1600之后,該處理前進(jìn)到S1602。在S1602,將第二相似度與預(yù)定閾值進(jìn)行比較。在S1602之后,該處理前進(jìn)到S1604。在S1604,在第二相似度大于預(yù)定閾值時(shí),將子句的實(shí)體關(guān)系模式加入與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將子句的關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將子句中的關(guān)系詞加入關(guān)系詞本體。如上所述,可以根據(jù)上述公式來(lái)計(jì)算實(shí)體關(guān)系模式類Pi的置信度conf(Pi)。當(dāng)將候選的子句的實(shí)體關(guān)系模式T加入到實(shí)體關(guān)系模式類Pi中之后,可以根據(jù)上述計(jì)算置信度conf(Pi)的公式重新計(jì)算實(shí)體關(guān)系模式類Pi的置信度,從而可以動(dòng)態(tài)更新實(shí)體關(guān)系模式類Pi的置信度。該處理在S1606結(jié)束。下面,結(jié)合圖17說(shuō)明根據(jù)本發(fā)明的另一實(shí)施例的生成和輸出實(shí)體關(guān)系模式的處理。圖17是示出根據(jù)本發(fā)明的另一實(shí)施例的生成和輸出實(shí)體關(guān)系模式的處理的示意性流程圖。如圖17所示,該處理開(kāi)始于S1700。在S1700之后,該處理前進(jìn)到S1702。在S1702,將第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度的乘積與預(yù)定閾值進(jìn)行比較。如上所述,可以根據(jù)公式Rank(Pi,T)=conf(Pi)×Similarity(Pi,T)來(lái)計(jì)算候選的子句的實(shí)體關(guān)系模式T與實(shí)體關(guān)系模式類Pi之間的模式排序Rank(Pi,T),該模式排序同時(shí)體現(xiàn)了候選的子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類之間的第二相似度、以及與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度。在S1702之后,該處理前進(jìn)到S1704。在S1704,在第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度的乘積(即模式排序Rank(Pi,T))大于預(yù)定閾值時(shí),將子句的實(shí)體關(guān)系模式加入與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將子句的關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將子句中的關(guān)系詞加入關(guān)系詞本體。如上所述,可以根據(jù)上述公式來(lái)計(jì)算實(shí)體關(guān)系模式類Pi的置信度conf(Pi)。當(dāng)將候選的子句的實(shí)體關(guān)系模式T加入到實(shí)體關(guān)系模式類Pi中之后,可以根據(jù)上述計(jì)算置信度conf(Pi)的公式重新計(jì)算實(shí)體關(guān)系模式類Pi的置信度,從而可以動(dòng)態(tài)更新實(shí)體關(guān)系模式類Pi的置信度。最后,該處理在S1706結(jié)束。下面,結(jié)合圖18來(lái)說(shuō)明根據(jù)本發(fā)明的實(shí)施例的計(jì)算實(shí)體關(guān)系模式強(qiáng)度的處理。圖18是示出根據(jù)本發(fā)明的實(shí)施例的計(jì)算實(shí)體關(guān)系模式強(qiáng)度的處理的示意性流程圖。如圖8所示,該處理開(kāi)始于S1800。在S1800之后,該處理前進(jìn)到S1802。在S1802,計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度。假設(shè)Ei和Ej分別表示兩個(gè)實(shí)體,LinkNum(Ei,Ej)表示實(shí)體Ei和Ej在關(guān)系庫(kù)中出現(xiàn)的次數(shù),表示Ei與其它所有相關(guān)實(shí)體在關(guān)系庫(kù)中出現(xiàn)的次數(shù),則可以根據(jù)下面的公式來(lái)計(jì)算實(shí)體Ei和實(shí)體Ej之間的實(shí)體關(guān)系的強(qiáng)度Strength(Ei,Ej):其中,i,j,k和q均為自然數(shù),并且,1≤i≤q,1≤j≤q,1≤k≤q。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度的方法僅是示例性的而非限制性的。還可以采用其它的方法來(lái)計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度,例如可以采用最大似然估計(jì)MLE來(lái)計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度等。在S1802之后,該處理前進(jìn)到S1804。在S1804,根據(jù)實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度過(guò)濾假陽(yáng)性實(shí)體關(guān)系。在經(jīng)過(guò)S1802得到實(shí)體Ei和實(shí)體Ej之間的實(shí)體關(guān)系的強(qiáng)度Strength(Ei,Ej)之后,可以將實(shí)體關(guān)系的強(qiáng)度Strength(Ei,Ej)與預(yù)定閾值進(jìn)行比較。當(dāng)實(shí)體關(guān)系的強(qiáng)度Strength(Ei,Ej)小于預(yù)定閾值時(shí),則表示實(shí)體Ei和實(shí)體Ej之間的實(shí)體關(guān)系為假陽(yáng)性(FalsePositive)的實(shí)體關(guān)系,因此可以將實(shí)體Ei和實(shí)體Ej之間的假陽(yáng)性的實(shí)體關(guān)系過(guò)濾掉。最后,該處理在S1806結(jié)束。下面結(jié)合圖19至圖24來(lái)說(shuō)明根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備。圖19是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖。如圖19所示,對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備1900包括:第二預(yù)處理裝置1902,用于對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別原始句子中表示實(shí)體的實(shí)體詞;第二拆分裝置1904,根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及實(shí)體詞和關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定預(yù)處理后的句子中的實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;第二提取裝置1906,用于提取拆分后的子句的實(shí)體關(guān)系模式,其中,子句的實(shí)體關(guān)系模式用實(shí)體詞及實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;第二相似度計(jì)算裝置1908,用于分別計(jì)算子句的實(shí)體關(guān)系模式與根據(jù)上述對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備所得到的實(shí)體關(guān)系模式類之間的第二相似度;以及分類裝置1910,用于根據(jù)第二相似度,將子句的實(shí)體關(guān)系模式分類到實(shí)體關(guān)系模式類中與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類中。需要指出的是,在與設(shè)備有關(guān)的實(shí)施例中所涉及的相關(guān)術(shù)語(yǔ)或表述與以上對(duì)根據(jù)本發(fā)明的實(shí)施例的方法的實(shí)施例闡述中所使用的術(shù)語(yǔ)或表述對(duì)應(yīng),在此不再贅述。圖20是示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的第二相似度計(jì)算裝置的示意性框圖。如圖20所示,第二相似度計(jì)算裝置1908包括:第三相似度計(jì)算裝置2001,用于分別計(jì)算子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類中的每個(gè)實(shí)體關(guān)系模式之間的第三相似度;以及選擇裝置2002,用于選擇具有最大值的第三相似度作為第二相似度。圖21示出根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備中的分類裝置的示意性框圖。如圖21所示,分類裝置1910包括:實(shí)體關(guān)系模式類確定裝置2101,用于根據(jù)第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,來(lái)確定與子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類。圖22是示出根據(jù)本發(fā)明的另一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖。如圖22所示,對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2200包括第二預(yù)處理裝置1902、第二拆分裝置1904、第二提取裝置1906、第二相似度計(jì)算裝置1908、分類裝置1910、第一比較裝置2201和第一更新裝置2203。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2200中的第二預(yù)處理裝置1902、第二拆分裝置1904、第二提取裝置1906、第二相似度計(jì)算裝置1908、分類裝置1910與圖19所示的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備1900中的相應(yīng)裝置的功能相同,其具體細(xì)節(jié)在此不再贅述。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2200中的第一比較裝置2201用于將第二相似度與預(yù)定閾值進(jìn)行比較。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2200中的第一更新裝置2203用于在第二相似度大于預(yù)定閾值時(shí),將子句的實(shí)體關(guān)系模式加入與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將子句的關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將子句中的關(guān)系詞加入關(guān)系詞本體。圖23是示出根據(jù)本發(fā)明的又一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖。如圖23所示,對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2300包括第二預(yù)處理裝置1902、第二拆分裝置1904、第二提取裝置1906、第二相似度計(jì)算裝置1908、分類裝置1910、第二比較裝置2301和第二更新裝置2303。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2300中的第二預(yù)處理裝置1902、第二拆分裝置1904、第二提取裝置1906、第二相似度計(jì)算裝置1908、分類裝置1910與圖19所示的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備1900中的相應(yīng)裝置的功能相同,其具體細(xì)節(jié)在此不再贅述。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2300中的第二比較裝置2301用于將第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度的乘積與預(yù)定閾值進(jìn)行比較。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2300中的第二更新裝置2303用于在第二相似度和與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度的乘積大于預(yù)定閾值時(shí),將子句的實(shí)體關(guān)系模式加入與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新與第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將子句的關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將子句中的關(guān)系詞加入關(guān)系詞本體。圖24是示出根據(jù)本發(fā)明的再一實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備的示意性框圖。如圖24所示,對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2400包括第二預(yù)處理裝置1902、第二拆分裝置1904、第二提取裝置1906、第二相似度計(jì)算裝置1908、分類裝置1910、強(qiáng)度計(jì)算裝置2401和過(guò)濾裝置2403。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2400中的第二預(yù)處理裝置1902、第二拆分裝置1904、第二提取裝置1906、第二相似度計(jì)算裝置1908、分類裝置1910與圖19所示的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備1900中的相應(yīng)裝置的功能相同,其具體細(xì)節(jié)在此不再贅述。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2400中的強(qiáng)度計(jì)算裝置2401用于計(jì)算實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度。對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備2400中的過(guò)濾裝置2403用于根據(jù)實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度過(guò)濾假陽(yáng)性實(shí)體關(guān)系。上述圖19至圖24中的各個(gè)設(shè)備和/或裝置例如可以被配置成按照相應(yīng)方法中的相應(yīng)步驟的工作方式來(lái)操作。細(xì)節(jié)參見(jiàn)上述針對(duì)根據(jù)本申請(qǐng)的實(shí)施例的方法所闡述的實(shí)施例。在此不再贅述。本領(lǐng)域技術(shù)人員理解,在上面描述的根據(jù)本發(fā)明各實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法中的各步驟或者對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的設(shè)備中的各功能裝置,可以根據(jù)實(shí)際需要進(jìn)行任意的組合,即,一個(gè)對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法實(shí)施例中的處理步驟可以與其它對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法實(shí)施例中的處理步驟進(jìn)行組合,或者,一個(gè)對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的設(shè)備實(shí)施例中的功能裝置可以與其它對(duì)實(shí)體關(guān)系模式進(jìn)行聚類、提取的設(shè)備實(shí)施例中的功能裝置進(jìn)行組合,以便實(shí)現(xiàn)所期望的技術(shù)目的。此外,本申請(qǐng)的實(shí)施例還提出了一種程序產(chǎn)品,該程序產(chǎn)品承載機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時(shí),指令使得信息處理設(shè)備執(zhí)行根據(jù)上述本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法。此外,本申請(qǐng)的實(shí)施例還提出了一種程序產(chǎn)品,該程序產(chǎn)品承載機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時(shí),指令使得信息處理設(shè)備執(zhí)行根據(jù)上述本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法。此外,本申請(qǐng)的實(shí)施例還提出了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時(shí),程序代碼使得信息處理設(shè)備執(zhí)行根據(jù)上述本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法。此外,本申請(qǐng)的實(shí)施例還提出了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時(shí),程序代碼使得信息處理設(shè)備執(zhí)行根據(jù)上述本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法。相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開(kāi)中。存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等等。根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備及其各個(gè)組成部件以及根據(jù)本發(fā)明的實(shí)施例的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備及其各個(gè)組成部件可通過(guò)軟件、固件、硬件或其組合的方式進(jìn)行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過(guò)軟件或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的信息處理設(shè)備(例如圖25所示的通用計(jì)算機(jī)2500)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等。在圖25中,中央處理單元(CPU)2501根據(jù)只讀存儲(chǔ)器(ROM)2502中存儲(chǔ)的程序或從存儲(chǔ)部分2508加載到隨機(jī)存取存儲(chǔ)器(RAM)2503的程序執(zhí)行各種處理。在RAM2503中,也根據(jù)需要存儲(chǔ)當(dāng)CPU2501執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU2501、ROM2502和RAM2503經(jīng)由總線2504彼此連接。輸入/輸出接口2505也連接到總線2504。下述部件連接到輸入/輸出接口2505:輸入部分2506(包括鍵盤、鼠標(biāo)等等)、輸出部分2507(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分2508(包括硬盤等)、通信部分2509(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分2509經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器2510也可連接到輸入/輸出接口2505??刹鹦督橘|(zhì)2511比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器2510上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分2508中。在通過(guò)軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)2511安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖25所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)2511??刹鹦督橘|(zhì)2511的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者,存儲(chǔ)介質(zhì)可以是ROM2502、存儲(chǔ)部分2508中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。最后,還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。此外,在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)......”限定的要素,并不排除在包括要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。再者,由措辭“第一”,“第二”,“第三”等等限定的技術(shù)特征或者參數(shù),并不因?yàn)檫@些措辭的使用而具有特定的順序或者優(yōu)先級(jí)或者重要性程度。換句話說(shuō),這些措辭的使用只是為了區(qū)分或識(shí)別這些技術(shù)特征或者參數(shù)而沒(méi)有任何其他的限定含義。通過(guò)以上的描述不難看出,本發(fā)明的實(shí)施例提供的技術(shù)方案包括但不限于:附記1.一種對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,包括:對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別所述原始句子中表示實(shí)體的實(shí)體詞;根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及所述實(shí)體詞和所述關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定所述預(yù)處理后的句子中的所述實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;提取拆分后的子句的實(shí)體關(guān)系模式,其中,所述子句的實(shí)體關(guān)系模式用所述實(shí)體詞及所述實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;計(jì)算所提取的所述子句的實(shí)體關(guān)系模式之間的第一相似度;以及根據(jù)所計(jì)算的所述子句的實(shí)體關(guān)系模式之間的所述第一相似度,將所述子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類。附記2.根據(jù)附記1所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,所述提取的步驟包括:對(duì)所述中語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配,從而保留所述中語(yǔ)境中與所述關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在所述原始句子中的原始位置,并且去除不相關(guān)的詞。附記3.根據(jù)附記1所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,其中,計(jì)算第一相似度的步驟包括:計(jì)算所述子句的實(shí)體關(guān)系模式之間的第一字符串相似度;計(jì)算所述子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度;以及將所述第一字符串相似度和所述第一語(yǔ)義相似度加權(quán)后的結(jié)果作為所述第一相似度。附記4.根據(jù)附記3所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,其中,所述計(jì)算所述子句的實(shí)體關(guān)系模式之間的第一字符串相似度包括:分別計(jì)算所述子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二字符串相似度;以及將所述第二字符串相似度加權(quán)后的結(jié)果作為所述第一字符串相似度。附記5.根據(jù)附記3所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,其中,所述計(jì)算所述子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度包括:分別計(jì)算所述子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二語(yǔ)義相似度;以及將所述第二語(yǔ)義相似度加權(quán)后的結(jié)果作為所述第一語(yǔ)義相似度。附記6.根據(jù)附記1所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法,還包括:根據(jù)所述實(shí)體關(guān)系模式類中所包含的實(shí)體關(guān)系模式的數(shù)目來(lái)計(jì)算所述實(shí)體關(guān)系模式類的置信度。附記7.一種對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,包括:第一預(yù)處理裝置,用于對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別所述原始句子中表示實(shí)體的實(shí)體詞;第一拆分裝置,用于根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及所述實(shí)體詞和所述關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定所述預(yù)處理后的句子中的所述實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;第一提取裝置,用于提取拆分后的子句的實(shí)體關(guān)系模式,其中,所述子句的實(shí)體關(guān)系模式用所述實(shí)體詞及所述實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;第一相似度計(jì)算裝置,用于計(jì)算所提取的所述子句的實(shí)體關(guān)系模式之間的第一相似度;以及聚類裝置,根據(jù)所計(jì)算的所述子句的實(shí)體關(guān)系模式之間的所述第一相似度,將所述子句的實(shí)體關(guān)系模式聚類成實(shí)體關(guān)系模式類。附記8.根據(jù)附記7所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,所述第一提取裝置包括:匹配裝置,用于對(duì)所述中語(yǔ)境中的詞與關(guān)系詞本體中的詞進(jìn)行匹配,從而保留所述中語(yǔ)境中與所述關(guān)系詞本體中的詞相同或語(yǔ)義相似的詞及其在所述原始句子中的原始位置,并且去除不相關(guān)的詞。附記9.根據(jù)附記7所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,其中,所述第一相似度計(jì)算裝置包括:第一字符串相似度計(jì)算裝置,用于計(jì)算所述子句的實(shí)體關(guān)系模式之間的第一字符串相似度;第一語(yǔ)義相似度計(jì)算裝置,用于計(jì)算所述子句的實(shí)體關(guān)系模式之間的第一語(yǔ)義相似度;以及第一加權(quán)裝置,用于將所述第一字符串相似度和所述第一語(yǔ)義相似度加權(quán)后的結(jié)果作為所述第一相似度。附記10.根據(jù)附記9所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,其中,所述第一字符串相似度計(jì)算裝置包括:第二字符串相似度計(jì)算裝置,用于分別計(jì)算所述子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二字符串相似度;以及第二加權(quán)裝置,用于將所述第二字符串相似度加權(quán)后的結(jié)果作為所述第一字符串相似度。附記11.根據(jù)附記9所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,其中,所述第一語(yǔ)義相似度計(jì)算裝置包括:第二語(yǔ)義相似度計(jì)算裝置,用于分別計(jì)算所述子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境與其它子句的實(shí)體關(guān)系模式中的前語(yǔ)境、中語(yǔ)境和后語(yǔ)境之間的第二語(yǔ)義相似度;以及第三加權(quán)裝置,用于將所述第二語(yǔ)義相似度加權(quán)后的結(jié)果作為所述第一語(yǔ)義相似度。附記12.根據(jù)附記7所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備,還包括:置信度計(jì)算裝置,用于根據(jù)所述實(shí)體關(guān)系模式類中所包含的實(shí)體關(guān)系模式的數(shù)目來(lái)計(jì)算所述實(shí)體關(guān)系模式類的置信度。附記13.一種對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,包括:對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別所述原始句子中表示實(shí)體的實(shí)體詞;根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及所述實(shí)體詞和所述關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定所述預(yù)處理后的句子中的所述實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;提取拆分后的子句的實(shí)體關(guān)系模式,其中,所述子句的實(shí)體關(guān)系模式用所述實(shí)體詞及所述實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;分別計(jì)算所述子句的實(shí)體關(guān)系模式與根據(jù)附記1-6中任一項(xiàng)所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的方法所得到的實(shí)體關(guān)系模式類之間的第二相似度;以及根據(jù)所述第二相似度,將所述子句的實(shí)體關(guān)系模式分類到所述實(shí)體關(guān)系模式類中與所述子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類中。附記14.根據(jù)附記13所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,其中,計(jì)算第二相似度的步驟包括:分別計(jì)算所述子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類中的每個(gè)實(shí)體關(guān)系模式之間的第三相似度;以及選擇具有最大值的所述第三相似度作為所述第二相似度。附記15.根據(jù)附記13所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,其中,所述分類的步驟包括:根據(jù)所述第二相似度和與所述第二相似度對(duì)應(yīng)的所述實(shí)體關(guān)系模式類的置信度,來(lái)確定所述與所述子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類。附記16.根據(jù)附記13所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,包括:將所述第二相似度與預(yù)定閾值進(jìn)行比較;以及在所述第二相似度大于預(yù)定閾值時(shí),將所述子句的實(shí)體關(guān)系模式加入與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新所述與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將所述子句的所述關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將所述子句中的所述關(guān)系詞加入關(guān)系詞本體。附記17.根據(jù)附記15所述的方法,包括:將所述第二相似度和與所述第二相似度對(duì)應(yīng)的所述實(shí)體關(guān)系模式類的置信度的乘積與預(yù)定閾值進(jìn)行比較;以及在所述第二相似度和與所述第二相似度對(duì)應(yīng)的所述實(shí)體關(guān)系模式類的置信度的乘積大于預(yù)定閾值時(shí),將所述子句的實(shí)體關(guān)系模式加入與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新所述與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將所述子句的所述關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將所述子句中的所述關(guān)系詞加入關(guān)系詞本體。附記18.根據(jù)附記13所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的方法,還包括:計(jì)算所述實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度;以及根據(jù)所述實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度過(guò)濾假陽(yáng)性實(shí)體關(guān)系。附記19.一種對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,包括:第二預(yù)處理裝置,用于對(duì)原始句子進(jìn)行預(yù)處理,以識(shí)別所述原始句子中表示實(shí)體的實(shí)體詞;第二拆分裝置,根據(jù)實(shí)體詞和關(guān)系詞本體中的關(guān)系詞以及所述實(shí)體詞和所述關(guān)系詞在預(yù)處理后的句子中的特定出現(xiàn)序列確定所述預(yù)處理后的句子中的所述實(shí)體詞之間的實(shí)體關(guān)系,并且根據(jù)所確定的實(shí)體關(guān)系將預(yù)處理后的句子拆分成子句;第二提取裝置,用于提取拆分后的子句的實(shí)體關(guān)系模式,其中,所述子句的實(shí)體關(guān)系模式用所述實(shí)體詞及所述實(shí)體詞之間的中語(yǔ)境組成的關(guān)系元組來(lái)表示;第二相似度計(jì)算裝置,用于分別計(jì)算所述子句的實(shí)體關(guān)系模式與根據(jù)附記7-12中任一項(xiàng)所述的對(duì)實(shí)體關(guān)系模式進(jìn)行聚類的設(shè)備所得到的實(shí)體關(guān)系模式類之間的第二相似度;以及分類裝置,用于根據(jù)所述第二相似度,將所述子句的實(shí)體關(guān)系模式分類到所述實(shí)體關(guān)系模式類中與所述子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類中。附記20.根據(jù)附記19所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,所述第二相似度計(jì)算裝置包括:第三相似度計(jì)算裝置,用于分別計(jì)算所述子句的實(shí)體關(guān)系模式與實(shí)體關(guān)系模式類中的每個(gè)實(shí)體關(guān)系模式之間的第三相似度;以及選擇裝置,用于選擇具有最大值的所述第三相似度作為所述第二相似度。附記21.根據(jù)附記19所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,其中,所述分類裝置包括:實(shí)體關(guān)系模式類確定裝置,用于根據(jù)所述第二相似度和與所述第二相似度對(duì)應(yīng)的所述實(shí)體關(guān)系模式類的置信度,來(lái)確定所述與所述子句的實(shí)體關(guān)系模式相似的實(shí)體關(guān)系模式類。附記22.根據(jù)附記19所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,包括:第一比較裝置,用于將所述第二相似度與預(yù)定閾值進(jìn)行比較;以及第一更新裝置,用于在所述第二相似度大于預(yù)定閾值時(shí),將所述子句的實(shí)體關(guān)系模式加入與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新所述與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將所述子句的所述關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將所述子句中的所述關(guān)系詞加入關(guān)系詞本體。附記23.根據(jù)附記21所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,包括:第二比較裝置,用于將所述第二相似度和與所述第二相似度對(duì)應(yīng)的所述實(shí)體關(guān)系模式類的置信度的乘積與預(yù)定閾值進(jìn)行比較;以及第二更新裝置,用于在所述第二相似度和與所述第二相似度對(duì)應(yīng)的所述實(shí)體關(guān)系模式類的置信度的乘積大于預(yù)定閾值時(shí),將所述子句的實(shí)體關(guān)系模式加入與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類中并且更新所述與所述第二相似度對(duì)應(yīng)的實(shí)體關(guān)系模式類的置信度,以及將所述子句的所述關(guān)系元組加入實(shí)體關(guān)系庫(kù)中,并且將所述子句中的所述關(guān)系詞加入關(guān)系詞本體。附記24.根據(jù)附記19所述的對(duì)實(shí)體關(guān)系模式進(jìn)行提取的設(shè)備,還包括:強(qiáng)度計(jì)算裝置,用于計(jì)算所述實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度;以及過(guò)濾裝置,用于根據(jù)所述實(shí)體之間的實(shí)體關(guān)系的強(qiáng)度過(guò)濾假陽(yáng)性實(shí)體關(guān)系。
      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1