專利名稱:用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息抽取的技術(shù)領(lǐng)域,更具體地涉及用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的 方法和設(shè)備。
背景技術(shù):
隨著經(jīng)濟(jì)全球化的不斷發(fā)展、市場(chǎng)區(qū)域的持續(xù)擴(kuò)大以及競(jìng)爭(zhēng)對(duì)手的不斷增多,對(duì) 于企業(yè)而言,擁有對(duì)外界信息進(jìn)行捕捉和處理的能力顯得愈發(fā)重要。具體來(lái)說(shuō),就是需要這 樣一種技術(shù)處理能力,即,通過(guò)對(duì)與之相關(guān)企業(yè)的商業(yè)關(guān)系分析營(yíng)造出一個(gè)虛擬的企業(yè)經(jīng) 營(yíng)環(huán)境,用以幫助企業(yè)各級(jí)決策者獲得知識(shí)和洞察力,進(jìn)而做出對(duì)企業(yè)更為有利的決策。信息抽取是構(gòu)筑上述技術(shù)處理能力的核心技術(shù)之一,而實(shí)體關(guān)系抽取繼而是信息 抽取領(lǐng)域中的重要研究課題之一。實(shí)體關(guān)系抽取是一種用于自動(dòng)地從文本中發(fā)現(xiàn)實(shí)體之間 的關(guān)系的技術(shù)。例如,對(duì)于給定文本“AMD plans to compete with Intel atom chip”,根 據(jù)該技術(shù)能夠自動(dòng)分析出命名實(shí)體“AMD”和“Intel”之間存在“競(jìng)爭(zhēng)(compete) ”關(guān)系。實(shí) 體關(guān)系抽取作為信息抽取領(lǐng)域的重要技術(shù)之一,其處理結(jié)果將會(huì)直接影響到更高層分析, 例如企業(yè)商業(yè)信息處理。因此,高效準(zhǔn)確的實(shí)體關(guān)系抽取方法是對(duì)于實(shí)體關(guān)系抽取而言是 非常重要的。從技術(shù)的角度來(lái)講,實(shí)體關(guān)系抽取是要自動(dòng)識(shí)別用自然語(yǔ)言表達(dá)的兩個(gè)實(shí)體之間 的關(guān)聯(lián)。在現(xiàn)有技術(shù)中,通常使用的方法主要包括基于規(guī)則的抽取方法和機(jī)器學(xué)習(xí)的抽取 方法?;谝?guī)則的抽取方法需要針對(duì)不同的領(lǐng)域由專家構(gòu)造相應(yīng)的知識(shí)庫(kù)。而另外一種基 于機(jī)器學(xué)習(xí)的抽取方法則是將關(guān)系抽取轉(zhuǎn)換為分類問(wèn)題,其通過(guò)構(gòu)造關(guān)系候選,利用機(jī)器 學(xué)習(xí)得到分類器,從而利用該分類器將關(guān)系標(biāo)注為屬于哪個(gè)預(yù)定義的關(guān)系。由于關(guān)系抽取 問(wèn)題本身具有極大的復(fù)雜性,所以無(wú)論是規(guī)則方法還是機(jī)器學(xué)習(xí)方法都無(wú)法達(dá)到令人滿意 的抽取精度。另外,使用不可信的數(shù)據(jù)源信息也會(huì)引入額外的干擾,這使得關(guān)系抽取距離實(shí) 際應(yīng)用的要求還相差很大的距離。為得到比較精確的抽取結(jié)果,現(xiàn)有技術(shù)中的一個(gè)可行的辦法就是對(duì)抽取后的結(jié)果 進(jìn)行分析和過(guò)濾,以便剔除錯(cuò)誤的抽取結(jié)果,提高實(shí)體關(guān)系實(shí)例的精度,進(jìn)而滿足實(shí)際應(yīng)用 的需要。因此,如何構(gòu)造一個(gè)高效的實(shí)體關(guān)系過(guò)濾機(jī)制就變成一個(gè)實(shí)用的并且亟待解決的 問(wèn)題。對(duì)于實(shí)體關(guān)系過(guò)濾問(wèn)題,現(xiàn)有技術(shù)中存在一些相關(guān)的解決方案。例如,在Katrin Fundel、Robert Kuffner 禾口 Ralf Zimmer 于 2006 年 12 月在 Bioinformatics 中發(fā)表的 “RelEx-Relation extraction using dependency parse trees,,(v. 23η· 3,ρ· 365-371)中, 公開了基于規(guī)則的關(guān)系過(guò)濾方法,也可以稱為后處理步驟。在該文獻(xiàn)中引入專家知識(shí),并構(gòu) 建四種過(guò)濾機(jī)制來(lái)對(duì)抽取的實(shí)體關(guān)系進(jìn)行進(jìn)一步修正和過(guò)濾。這四種處理機(jī)制分別對(duì)應(yīng)于四個(gè)過(guò)濾步驟1)否定檢查,即確定一個(gè)關(guān)系是否為否定關(guān)系。如果候選關(guān)系的節(jié)點(diǎn)或者各 個(gè)子結(jié)點(diǎn)的節(jié)點(diǎn)中包含否定含義的詞,比如‘‘η0(不)”、“not(非)”、‘‘n0r(也不)”、"neither (均不)”、‘‘without (沒(méi)有)”、‘‘lack(缺少)”、‘‘fail (s,ed)(未能)”、‘‘unable (s) (不能)”、“abrogate (s,d)(取消)'\"absen(ce, t))(缺乏)”等詞,則該關(guān)系被認(rèn)為是否 定的。根據(jù)該文獻(xiàn)中的方法,將會(huì)把這些否定的關(guān)系剔除。2)施事_受事檢測(cè)。施事是指語(yǔ)法上的動(dòng)作主體,受事是指語(yǔ)法上的動(dòng)作對(duì)象。 在一對(duì)關(guān)系中,通常先出現(xiàn)的實(shí)體為施事,而后出現(xiàn)的為受事。如果檢測(cè)到對(duì)應(yīng)的上下文描 述為被動(dòng)語(yǔ)態(tài),那么則將實(shí)體關(guān)系中的施事和受事的角色調(diào)換。在該文獻(xiàn)中,通過(guò)一系列預(yù) 先定義的詞來(lái)判斷上下文的語(yǔ)態(tài)是否是被動(dòng)語(yǔ)態(tài)。3)枚舉消解。通過(guò)分析與檢測(cè)到的關(guān)系對(duì)應(yīng)的名詞短語(yǔ)塊,來(lái)判斷是否存在并列 枚舉的實(shí)體,如果存在枚舉的實(shí)體,則生成多個(gè)類似的實(shí)體關(guān)系實(shí)例。4)興趣域過(guò)濾。在該處理機(jī)制中,預(yù)先定義一系列領(lǐng)域相關(guān)詞或者詞組,并檢測(cè)與 檢查到的關(guān)系對(duì)應(yīng)的文本是否包含該領(lǐng)域相關(guān)詞或者詞組,如果不包含該領(lǐng)域相關(guān)詞或者 詞組,則將該實(shí)體關(guān)系實(shí)例剔除。從該文獻(xiàn)的公開內(nèi)容可以看出,這些過(guò)濾機(jī)制在一定程度上解決了濾除錯(cuò)誤關(guān)系 實(shí)例的問(wèn)題。然而,事實(shí)上,實(shí)體關(guān)系實(shí)例的精確度仍然有待提高。
發(fā)明內(nèi)容
為此,本發(fā)明目的之一在于提供了一種用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法和設(shè) 備,以便提高得到的實(shí)體關(guān)系實(shí)例的精度。根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法。所述 方法可以包括基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行標(biāo) 記;以及對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾,以得到可靠的實(shí)體關(guān)系實(shí)例。在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中,對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行標(biāo)記可以包括 基于該實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息確定該實(shí)體關(guān)系實(shí)例的可信度;以及比較所確定的 可信度與預(yù)定的可信度閾值,以將實(shí)體關(guān)系實(shí)例標(biāo)記為可靠或者不可靠。根據(jù)本發(fā)明的另一實(shí)施方式,所述可靠性相關(guān)信息可以包括實(shí)體關(guān)系實(shí)例的數(shù) 據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的至少一個(gè),以及基于實(shí)體關(guān)系實(shí)例 的數(shù)據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的至少一個(gè)來(lái)確定該實(shí)體關(guān)系 的可信度。根據(jù)本發(fā)明的再一實(shí)施方式,可以通過(guò)計(jì)算與該數(shù)據(jù)源相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的 多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例來(lái)得到該數(shù)據(jù)源的可信度。根據(jù)本發(fā)明的又一實(shí)施方式,可以基于包括該數(shù)據(jù)源的多個(gè)數(shù)據(jù)源之間的關(guān)聯(lián)關(guān) 系和其中部分?jǐn)?shù)據(jù)源的已知初始可信度,通過(guò)預(yù)定迭代算法,來(lái)得到該多個(gè)數(shù)據(jù)源的可信度。根據(jù)本發(fā)明的另一實(shí)施方式,所述抽取規(guī)則的可信度可以通過(guò)計(jì)算與該抽取規(guī)則 相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得到。根據(jù)本發(fā)明的再一實(shí)施方式,所述可靠性相關(guān)信息可以包括廣域上下文信息和預(yù) 定的廣域上下文判定規(guī)則,以及其中基于廣域上下文信息和預(yù)定的廣域上下文判定規(guī)則來(lái) 確定該實(shí)體關(guān)系實(shí)例的可信度。根據(jù)本發(fā)明的又一實(shí)施方式,所述可靠性相關(guān)信息可以進(jìn)一步包括廣域上下文信息和預(yù)定的廣域上下文判定規(guī)則,以及其中進(jìn)一步基于廣域上下文信息和預(yù)定的廣域上下 文判定規(guī)則來(lái)確定該實(shí)體關(guān)系實(shí)例的可信度。根據(jù)本發(fā)明的另一實(shí)施方式,所述廣域上下文信息可以是與該實(shí)體關(guān)系實(shí)例相關(guān) 的實(shí)體的商業(yè)類型信息,以及所述預(yù)定的廣域上下文判定規(guī)則是與實(shí)體商業(yè)類型信息相關(guān) 的規(guī)則。根據(jù)本發(fā)明的再一實(shí)施方式,所述可靠性相關(guān)信息可以包括關(guān)系歷史判定規(guī)則, 以及其中基于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。根據(jù)本發(fā)明的又一實(shí)施方式,所述關(guān)系歷史判定規(guī)則可以包括施事-受事關(guān)系對(duì) 和/或關(guān)系變化模式。根據(jù)本發(fā)明的另一實(shí)施方式,所述可靠性相關(guān)信息可以進(jìn)一步包括關(guān)系歷史判定 規(guī)則,以及其中進(jìn)一步基于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo) 記。根據(jù)本發(fā)明的再一實(shí)施方式,可以進(jìn)一步包括將經(jīng)過(guò)標(biāo)記的、可信度在預(yù)定閾值 范圍內(nèi)的實(shí)體關(guān)系實(shí)例保存到庫(kù)中。根據(jù)本發(fā)明的另一方面,提供了一種用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的設(shè)備。所述 設(shè)備包括標(biāo)記裝置,用于基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例的可靠 性進(jìn)行標(biāo)記;以及過(guò)濾裝置,用于對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾,以得到可靠的實(shí)體 關(guān)系實(shí)例。通過(guò)本發(fā)明,可以得到精確度更高的實(shí)體關(guān)系實(shí)例,為基于實(shí)體關(guān)系實(shí)例的高層 分析提供了更加可靠的基礎(chǔ),使得得到的實(shí)體關(guān)系實(shí)例對(duì)于高層決策具有更大的實(shí)用性。
通過(guò)對(duì)結(jié)合附圖所示出的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明,本發(fā)明的上述以及其他特征將 更加明顯,本發(fā)明附圖中相同的標(biāo)號(hào)表示相同或相似的部件。在附圖中,圖1示意性地示出根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的 方法的流程圖;圖2示意性地示出根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記的 方法的過(guò)程圖;圖3示意性地示出了根據(jù)本發(fā)明的用于計(jì)算數(shù)據(jù)源可信度的網(wǎng)絡(luò)圖;圖4示意性地示出了根據(jù)本發(fā)明另一實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記 的方法的過(guò)程圖;圖5示意性地示出了根據(jù)本發(fā)明再一實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記 的方法的過(guò)程圖;圖6示意性地示出關(guān)系方向異常突變的圖示;圖7示意性地示出了根據(jù)本發(fā)明另一實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾 的方法的流程圖;圖8示意性地示出了根據(jù)本發(fā)明再一實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾 的方法的流程圖;以及圖9示意性地示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾
6的設(shè)備的方框圖。
具體實(shí)施例方式在下文中,將參考附圖通過(guò)實(shí)施方式對(duì)本發(fā)明提供的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò) 濾的方法和設(shè)備進(jìn)行詳細(xì)的描述。首先,將參考圖1描述根據(jù)本發(fā)明一個(gè)實(shí)施方式的方法。圖1示出了根據(jù)本發(fā)明 一個(gè)實(shí)施方式的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法的流程圖。如圖1所示,在步驟101,基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例 的可靠性進(jìn)行標(biāo)記。根據(jù)本發(fā)明的一種實(shí)施方式,可以首先根據(jù)與實(shí)體關(guān)系實(shí)例的可靠性相關(guān)的信息 來(lái)確定該實(shí)體關(guān)系實(shí)例的可信度,然后基于該可信度和一個(gè)預(yù)定的閾值來(lái)進(jìn)行可靠性標(biāo) 記。下面將參考圖2至圖4來(lái)描述這種實(shí)施方式。參考圖2,圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記的方法 的過(guò)程圖。在該實(shí)施方式中,可靠性相關(guān)信息是實(shí)體關(guān)系實(shí)例的數(shù)據(jù)源的可信度。如圖2所示,在塊201輸入待標(biāo)記的實(shí)體關(guān)系實(shí)例,實(shí)體關(guān)系實(shí)例可以手動(dòng)輸入也 可以由其他程序通過(guò)接口導(dǎo)入。實(shí)體關(guān)系實(shí)例典型地是借助于實(shí)體關(guān)系抽取技術(shù)從數(shù)據(jù)源 的文本抽取得到的信息。每個(gè)實(shí)體關(guān)系實(shí)例至少包括兩個(gè)實(shí)體及兩個(gè)實(shí)體之間的關(guān)系類 型。這兩個(gè)實(shí)體可以分別是施事實(shí)體和受事實(shí)體,例如,具有收購(gòu)關(guān)系或者供貨關(guān)系的兩個(gè) 實(shí)體;也可以是具有對(duì)等關(guān)系的兩個(gè)實(shí)體,例如具有競(jìng)爭(zhēng)關(guān)系的兩個(gè)實(shí)體。根據(jù)本發(fā)明,實(shí)體關(guān)系實(shí)例可以進(jìn)一步包括指示該實(shí)體關(guān)系實(shí)例來(lái)源的數(shù)據(jù)源 (諸如網(wǎng)站、信息庫(kù)或者其他信息源),還可以進(jìn)一步包括抽取該實(shí)體關(guān)系實(shí)例所使用的規(guī) 則或者方法。此外,還可以包括用于表示實(shí)體關(guān)系實(shí)例的可靠性的一個(gè)或多個(gè)檢測(cè)標(biāo)記。實(shí)體關(guān)系實(shí)例在后臺(tái)可以以下面給出的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ) 表1實(shí)體關(guān)系實(shí)例的數(shù)據(jù)結(jié)構(gòu)另外,為了便于理解,在表2中給出了數(shù)據(jù)庫(kù)中存儲(chǔ)的幾個(gè)實(shí)體關(guān)系實(shí)例的例子 表2待標(biāo)記實(shí)體關(guān)系實(shí)例的例子需要說(shuō)明的是,待標(biāo)記的實(shí)體關(guān)系實(shí)例可以是經(jīng)過(guò)實(shí)體關(guān)系抽取后得到的實(shí)體關(guān) 系實(shí)例,也可以是采用了現(xiàn)有技術(shù)中的過(guò)濾方法后得到的實(shí)體關(guān)系實(shí)例。繼續(xù)參考圖2,在塊202,根據(jù)數(shù)據(jù)庫(kù)207中與該實(shí)體關(guān)系實(shí)例相關(guān)聯(lián)的數(shù)據(jù)源的 可信度來(lái)確定該實(shí)體關(guān)系實(shí)例的可信度。數(shù)據(jù)庫(kù)207是配置用于存儲(chǔ)數(shù)據(jù)源可信度的庫(kù)。 該數(shù)據(jù)源可信度是在塊206計(jì)算得到并被存儲(chǔ)在數(shù)據(jù)庫(kù)207中的。在圖2示出的實(shí)施方式 中,可以基于包括該實(shí)體關(guān)系實(shí)例的數(shù)據(jù)源的多個(gè)數(shù)據(jù)源之間的關(guān)聯(lián)信息(存儲(chǔ)在數(shù)據(jù)庫(kù) 205)和其中部分?jǐn)?shù)據(jù)源的已知初始可信度(由數(shù)據(jù)庫(kù)208中存儲(chǔ)的經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí) 例得到),通過(guò)預(yù)定迭代算法,得到多個(gè)數(shù)據(jù)源的可信度。在下文中,將參考圖3來(lái)描述基于 數(shù)據(jù)源之間的關(guān)聯(lián)關(guān)系和已知初始可信度來(lái)計(jì)算數(shù)據(jù)源的可信度的一個(gè)實(shí)施例。在該實(shí)施例中,假設(shè)存在6個(gè)數(shù)據(jù)源,即網(wǎng)站1至網(wǎng)站6。基于這些網(wǎng)站之間的鏈 接關(guān)系,可以形成如圖3所示的網(wǎng)絡(luò)圖G= (V, O,其中V是圖G的頂點(diǎn),ε是圖中連接各 頂點(diǎn)的邊。在圖3所示的圖中,頂點(diǎn)1至頂點(diǎn)6分別代表網(wǎng)站1至網(wǎng)站6。如圖3所示,由于網(wǎng)站1中包括至網(wǎng)站3和網(wǎng)站6的超級(jí)鏈接,所以頂點(diǎn)1具有分 別指向頂點(diǎn)3和頂點(diǎn)6的兩條邊。類似地,網(wǎng)站2中包括至網(wǎng)站1的超級(jí)鏈接,因而頂點(diǎn)2 具有指向頂點(diǎn)1的邊;網(wǎng)站3中不包括至任何網(wǎng)站的超級(jí)鏈接,所以節(jié)點(diǎn)3沒(méi)有任何指向其 他頂點(diǎn)的邊;網(wǎng)站4中包括至網(wǎng)站3的超級(jí)鏈接,因而頂點(diǎn)4具有指向頂點(diǎn)3的邊;網(wǎng)站5 中包括至網(wǎng)站2和網(wǎng)站4的超級(jí)鏈接,因而頂點(diǎn)5具有指向頂點(diǎn)2和頂點(diǎn)4的邊;以及網(wǎng)站 6中包括至網(wǎng)站3和網(wǎng)站5的超級(jí)鏈接,因而頂點(diǎn)6具有指向頂點(diǎn)3和頂點(diǎn)5的邊。接著,可以根據(jù)圖3示出的圖按照下式計(jì)算出信任值(TrustRank)矩陣T
式 1其中,ρ和q表示圖中頂點(diǎn)的編號(hào),ω (q)是指編號(hào)為q的頂點(diǎn)指向外部的邊的數(shù) 目,即出度。根據(jù)該式1,如果在頂點(diǎn)q和頂點(diǎn)P之間存在由頂點(diǎn)q指向頂點(diǎn)P的邊,則該 信任值矩陣T的第ρ行第q列的元素的矩陣元素T(p,q)為1/ω (q),否則為0。例如,對(duì)于 第1行第2個(gè)元素T (1,2),由于在頂點(diǎn)1和頂點(diǎn)2之間存在由頂點(diǎn)2指向頂點(diǎn)1的邊,所以 T(l,2)為l/ (q),而(0&),即指向外部的邊數(shù)為1,因此1(1,2)為1。因此,根據(jù)上述式 1以及圖3中的圖,可以得到如下所示出的信任值矩陣T。 另外,假定根據(jù)數(shù)據(jù)庫(kù)208中存儲(chǔ)的經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例可以獲知網(wǎng)站1和 網(wǎng)站2的可信度初始值分別為0. 9和0. 8。于是,可以據(jù)此得到所有網(wǎng)站1至網(wǎng)站6的可信 度初始向量 在初始向量d中,與網(wǎng)站1和網(wǎng)站2對(duì)應(yīng)的元素值被設(shè)為網(wǎng)站1和網(wǎng)站2的已知 可信度,而與其余可信度未知的網(wǎng)站對(duì)應(yīng)的元素值被設(shè)為0。然后,可以根據(jù)如下迭代算法來(lái)得到可靠度數(shù)值。 其中,T為上述計(jì)算得到的信任值矩陣T,R的初始值為可信度初始矩陣d,而a為 衰減因子。在經(jīng)過(guò)若干次迭代之后趨于穩(wěn)定時(shí),可以得到向量R,即為網(wǎng)站的可信度。對(duì)于該 實(shí)例,得到的可信度為R=
得到的各個(gè)網(wǎng)站的可信度可以存儲(chǔ)在數(shù)據(jù)庫(kù)207中。在該實(shí)施例中,網(wǎng)站1和網(wǎng)站2的初始可信度可以通過(guò)分別計(jì)算數(shù)據(jù)庫(kù)208中與 網(wǎng)站1和網(wǎng)站2相關(guān)的預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得 到的。另外,部分網(wǎng)站的已知初始可信度也可以是具有可信來(lái)源的可信度值。關(guān)于網(wǎng)站可信度的計(jì)算的更為詳盡的信息,可以參考Gy0ngyi,Zoltan, Hector
Garcia-Molina、Jan Pedersen等人于2004在第三十屆超大型數(shù)據(jù)庫(kù)國(guó)際會(huì)議(VLDB)論 JCMrP"Combating Web Spam with Trust Rank”一t。另外,除了按照上述實(shí)施例通過(guò)迭代算法得到各個(gè)數(shù)據(jù)源的可信度之外,數(shù)據(jù)源 的可信度也可以是具有高可靠來(lái)源的設(shè)定值。此外,也可以通過(guò)計(jì)算數(shù)據(jù)庫(kù)208中存儲(chǔ)的、 與該數(shù)據(jù)源相關(guān)的預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得到 各個(gè)數(shù)據(jù)源的可信度。在這種情況下,同樣需要預(yù)先提供與各個(gè)數(shù)據(jù)源相關(guān)的、較大數(shù)量經(jīng) 過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例,以便確保得到數(shù)據(jù)源的可信度的準(zhǔn)確性。這樣,通過(guò)上文所描述的各種實(shí)施例,就可以得到數(shù)據(jù)源的可信度,并可以將待標(biāo) 記的實(shí)體關(guān)系實(shí)例的可信度確定為其數(shù)據(jù)源的可信度。接著,可以在塊203根據(jù)所確定的實(shí)體關(guān)系實(shí)例的可信度以及預(yù)定閾值對(duì)實(shí)體關(guān)
9系實(shí)例進(jìn)行標(biāo)記。出于說(shuō)明的目的,假定在塊201輸入的待標(biāo)記實(shí)體關(guān)系實(shí)例為以下給出的實(shí)體關(guān) 系實(shí)例RIl = British Telecom, MCI>,收購(gòu),Rule 1, Source 1}RI2 = MCI, British Telecom〉,收購(gòu),Rule 2, Source 4}RI3 = British Telecom, MCI>,收購(gòu),Rule 3, Source 3}對(duì)于通過(guò)迭代算法得到的可信度R=
以及預(yù)定的可 信度閾值0. 7,則可以分別將實(shí)體關(guān)系實(shí)例RI1、RI2和RI3標(biāo)記為RIl= British Telecom,MCI>,收購(gòu),Rule 1, Source 1,數(shù)據(jù)源-可靠}RI2 = MCI, British Telecom〉,收購(gòu),Rule 2, Source 4,數(shù)據(jù)源-不可靠}RI3 = British Telecom,MCI>,收購(gòu),Rule 3, Source 3,數(shù)據(jù)源-可靠}這樣,就分別為各個(gè)待標(biāo)記的實(shí)體關(guān)系實(shí)例添加了數(shù)據(jù)源相關(guān)的可靠性標(biāo)記。在上文中描述了基于數(shù)據(jù)源的可信度對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記的實(shí)施方式,然而 本發(fā)明并不局限于此。在本發(fā)明的另一個(gè)實(shí)施方式中,實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息包 括該實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可靠性。在實(shí)體關(guān)系抽取中,抽取規(guī)則對(duì)實(shí)體關(guān)系的可靠 性也起到非常重要的作用,因此可以根據(jù)與實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度確定實(shí)體關(guān) 系實(shí)例的可信度,并據(jù)此對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。在該實(shí)施方式中,抽取規(guī)則的可信度與上述數(shù)據(jù)源的可信度類似,可以是具有高 可靠來(lái)源的可信度值。另外,該抽取規(guī)則的可信度也可以通過(guò)數(shù)據(jù)庫(kù)208中存儲(chǔ)的經(jīng)過(guò)人 工標(biāo)記的大量實(shí)體關(guān)系實(shí)例來(lái)確定。例如,抽取規(guī)則的可信度可以通過(guò)計(jì)算與該抽取規(guī)則 相關(guān)的預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得到。例如,如果得到的抽取規(guī)則Rule 1、Rule 2、Rule 3的可信度分別為0. 9、0. 7、 0. 8,則根據(jù)抽取規(guī)則將各個(gè)實(shí)體實(shí)例的可信度確定為所使用的抽取規(guī)則的可信度。利用預(yù) 定閾值0. 8,則可以將下列存在矛盾關(guān)系的RI1、RI2和RI3標(biāo)記為RIl= British Telecom,MCI>,收購(gòu),Rule 1, Source 1,規(guī)則-可靠}RI2 = MCI, British Telecom〉,收購(gòu),Rule 2,Source 4,規(guī)則-不可靠}RI3 = British Telecom, MCI>,收購(gòu),Rule 3,Source 3,規(guī)則-可靠}這樣,就為實(shí)體關(guān)系實(shí)例RI 1-RI3添加了與抽取規(guī)則相關(guān)的可靠性標(biāo)記。在根據(jù)本發(fā)明的優(yōu)選實(shí)施方式中,可以將數(shù)據(jù)源的可信度和抽取規(guī)則的可信度結(jié) 合在一起對(duì)實(shí)體關(guān)系實(shí)例標(biāo)記。例如,對(duì)于通過(guò)迭代算法得到的數(shù)據(jù)源可信度R=
, 以及所確定的抽取規(guī)則Rule URule 2,Rule 3的可信度0. 9、0. 7和0. 8,可以將數(shù)據(jù)源的 可信度與抽取規(guī)則的可信度的乘積確定為實(shí)體關(guān)系實(shí)例RI 1-RI3的可信度,其在下面給 出RI [1-3] =
=
因此,對(duì)于給定的閾值0. 6,可針對(duì)實(shí)體關(guān)系實(shí)例RI 1-RI3標(biāo)記如下RIl= British Telecom,MCI>,收購(gòu),Rule l,Source 1,數(shù)據(jù)源&規(guī)則-可靠}RI2 = {<MCI,British Telecom〉,收購(gòu),Rule 2,Source 4,數(shù)據(jù)源&規(guī)則-不可
靠}
RI3 = British Telecom,MCI>,收購(gòu),Rule 3, Source 3,數(shù)據(jù)源&規(guī)則-可靠}在對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記之后,就可以在塊204輸出經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí) 例,即帶有可靠性標(biāo)記的實(shí)體關(guān)系實(shí)例。需要說(shuō)明的是,在結(jié)合數(shù)據(jù)源的可信度和抽取規(guī)則的可信度來(lái)計(jì)算實(shí)體關(guān)系的可 信度時(shí),除了上面給出的將兩個(gè)可信度的乘積作為實(shí)體關(guān)系實(shí)例的可信度值之外,還可以 采用其他算法來(lái)得到實(shí)體關(guān)系實(shí)例的可信度。例如,可以取兩個(gè)可信度值中的較小值作為 實(shí)體關(guān)系實(shí)例的可信度值,可以取兩個(gè)可信度值的平均值作為實(shí)體關(guān)系實(shí)例的可信度,或 者可以為兩個(gè)可信度值設(shè)定權(quán)重并將這兩個(gè)可信度值的加權(quán)平均值確定為實(shí)體關(guān)系實(shí)例 的可信度。數(shù)據(jù)源和抽取規(guī)則的可信度可以預(yù)先計(jì)算并存儲(chǔ)在數(shù)據(jù)庫(kù)中,但是本領(lǐng)域技術(shù)人 員可以理解,這些可信度也可以在需要時(shí)執(zhí)行計(jì)算而不存儲(chǔ)在例如數(shù)據(jù)庫(kù)207中。下面將參考圖4來(lái)描述根據(jù)本發(fā)明的另一實(shí)施方式對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記的 方法。圖4示意性地示出了基于廣域上下文信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記的方法的圖 示。在該實(shí)施方式中,所述可靠性相關(guān)信息可以包括廣域上下文信息和預(yù)定的廣域上下文 判定規(guī)則,并且基于廣域上下文信息和預(yù)定的廣域上下文判定規(guī)則來(lái)確定該實(shí)體關(guān)系實(shí)例 的可信度。參考圖4,在塊401輸入待標(biāo)記實(shí)體關(guān)系實(shí)例,其同樣可以手動(dòng)輸入或者由其他程 序通過(guò)接口導(dǎo)入。然后在塊402根據(jù)廣域文上下文信息和廣域上下文規(guī)則來(lái)確定實(shí)體關(guān)系 實(shí)例的可信度。數(shù)據(jù)庫(kù)405用于存儲(chǔ)廣域上下文信息。廣域上下文信息是指與所要抽取的實(shí)體及 其實(shí)體關(guān)系相關(guān)但從用于抽取實(shí)體關(guān)系的當(dāng)前文本中無(wú)法獲取的信息。廣域上下文信息可 以手工或者自動(dòng)地采集。例如可以從可靠的公司主頁(yè)得到,或者通過(guò)其他資訊公司的可靠 的信息來(lái)源獲取。廣域上下文信息的一個(gè)示例性的實(shí)例為實(shí)體的商業(yè)類型信息。下面將以商業(yè)類型 信息作為實(shí)例進(jìn)行說(shuō)明,但本發(fā)明并不局限于此。商業(yè)類型信息在后臺(tái)可以以下面給出的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)
公司名
商業(yè)類型表3公司商業(yè)類型信息的存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫(kù)中存儲(chǔ)的示例性的數(shù)據(jù)信息如表4所示
公司名商業(yè)類型辦丁家用電器零售商美的電器制造商 表4公司商業(yè)類型信息的實(shí)例繼續(xù)參考圖4,數(shù)據(jù)庫(kù)406存儲(chǔ)了基于廣域上下文信息的判定規(guī)則。這些規(guī)則可以 由人工制定,或者通過(guò)機(jī)器學(xué)習(xí)的方法產(chǎn)生。每個(gè)規(guī)則都可以包括其對(duì)應(yīng)的可信度。廣域上下文判定規(guī)則在后臺(tái)可以以表5給出的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ) 表5廣域上下文判定規(guī)則的存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)而數(shù)據(jù)庫(kù)中存儲(chǔ)的示例性的規(guī)則實(shí)例可以為 表6廣域上下文判定規(guī)則的實(shí)例對(duì)于如下所示的待標(biāo)記實(shí)體關(guān)系實(shí)例RI4 = {< 蘇寧,美的 >,競(jìng)爭(zhēng),Rule 4,Source 4}可以在塊402根據(jù)上述存儲(chǔ)在數(shù)據(jù)庫(kù)中的判定規(guī)則“如果兩個(gè)公司的商業(yè)類型沒(méi) 有交叉,則這兩個(gè)公司不會(huì)存在競(jìng)爭(zhēng)關(guān)系0. 98”的判定規(guī)則來(lái)確定該實(shí)體關(guān)系實(shí)例的可 信度。由于該實(shí)體關(guān)系實(shí)例表示商業(yè)類型不交叉的兩個(gè)公司蘇寧和美的存在競(jìng)爭(zhēng)關(guān)系,與 該規(guī)則中的描述正好相反,因此可以判定蘇寧和美的存在競(jìng)爭(zhēng)的可信度為(1-0. 98),即為 0. 02。接著在塊403根據(jù)諸如為0. 8的預(yù)定閾值以及所確定的實(shí)體關(guān)系實(shí)例的可信度 0. 02,可以將實(shí)體關(guān)系實(shí)例RI4標(biāo)記為RI4 = {〈蘇寧,美的〉,競(jìng)爭(zhēng),Rule 4, Source 4,廣域信息-不可靠}對(duì)于另一示例性的實(shí)體關(guān)系實(shí)例RI5 RI5 = {< 蘇寧,國(guó)美 >,供貨,Rule 4,Source 4}類似地,可以在塊402根據(jù)上述存儲(chǔ)在數(shù)據(jù)庫(kù)中的判定規(guī)則“如果兩個(gè)公司的商 業(yè)類型完全一致,則這兩個(gè)公司不存在供貨關(guān)系0. 81”確定該實(shí)體關(guān)系實(shí)例的可信度。由 于該實(shí)體關(guān)系實(shí)例表示商業(yè)類型完全一致的兩個(gè)公司蘇寧和國(guó)美存在供貨關(guān)系,與該規(guī) 則中的描述正好相反,因此可以判定蘇寧和國(guó)美存在供貨關(guān)系的可信度為(1-0. 81),即為 0. 19。因此,根據(jù)諸如為0.8的預(yù)定閾值以及所確定的實(shí)體關(guān)系的可信度0. 19,可以將該實(shí)體關(guān)系實(shí)例RI5標(biāo)記為RI5 = {〈蘇寧,國(guó)美〉,供貨,Rule 4, Source 4,廣域信息-不可靠}這樣,就可以根據(jù)廣域上下文信息給實(shí)體關(guān)系實(shí)例添加廣域信息相關(guān)的可靠性標(biāo) 記。在上文中參考圖2至圖4描述了基于確定的實(shí)體關(guān)系實(shí)例的可信度值對(duì)實(shí)體關(guān)系 實(shí)例進(jìn)行標(biāo)記的方法,下面將參考圖5來(lái)描述根據(jù)本發(fā)明另一種實(shí)施方式的對(duì)實(shí)體關(guān)系實(shí) 例進(jìn)行標(biāo)記的方法。在圖5示出的實(shí)施方式中,所述可靠性相關(guān)信息包括關(guān)系歷史判定規(guī)則,并且基 于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。如圖5所示,在塊501輸入待標(biāo)記實(shí)體關(guān)系實(shí)例,與前面已經(jīng)描述的實(shí)施方式類 似,待標(biāo)記實(shí)體關(guān)系實(shí)例可以手動(dòng)輸入或者由其他程序通過(guò)接口導(dǎo)入。然后,在塊502根據(jù) 關(guān)系歷史判定規(guī)則對(duì)待標(biāo)記實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記,并在塊503輸出經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系 實(shí)例。其中,關(guān)系歷史判定規(guī)則在塊505處根據(jù)實(shí)體關(guān)系實(shí)例歷史信息而生成,其可以基于 專家經(jīng)驗(yàn)人工產(chǎn)生,或者通過(guò)機(jī)器學(xué)習(xí)方法而生成。待標(biāo)記實(shí)體關(guān)系實(shí)例在該實(shí)施例中是 具有時(shí)間標(biāo)記的實(shí)體關(guān)系實(shí)例。關(guān)系歷史判定規(guī)則的兩個(gè)較為典型的實(shí)例是施事_受事關(guān)系對(duì)以及關(guān)系變化模 式。下面將以此為例進(jìn)行詳細(xì)地描述。施事-受事關(guān)系對(duì)是指這樣一對(duì)關(guān)系,其中一旦一個(gè)關(guān)系發(fā)生則會(huì)對(duì)另一關(guān)系的 狀態(tài)產(chǎn)生影響,該一個(gè)關(guān)系被稱為施事關(guān)系,該另一關(guān)系稱為受事關(guān)系。施事-受事關(guān)系對(duì) 在后臺(tái)可以按照以表7所給出的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ) 表7施事-受事關(guān)系對(duì)的存儲(chǔ)結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中的施事_受事關(guān)系對(duì)的一個(gè)示例性實(shí)例可以為 表8施事-受事關(guān)系對(duì)的實(shí)例該施事-受事關(guān)系對(duì)表明在兩個(gè)實(shí)體之間發(fā)生收購(gòu)關(guān)系后,將消除這兩個(gè)實(shí)體之 間的競(jìng)爭(zhēng)關(guān)系。另外,關(guān)系方向變化模式是指實(shí)體關(guān)系發(fā)生變化所遵循的模式。實(shí)體關(guān)系模式在后臺(tái)可以以如下給出的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ) 表9關(guān)系變化模式的存儲(chǔ)結(jié)構(gòu)在下表10中給出了存儲(chǔ)在數(shù)據(jù)庫(kù)中的關(guān)系變化模式的一個(gè)實(shí)例 表10關(guān)系變化模式的實(shí)例上面給出的關(guān)系變化模式表明,兩個(gè)實(shí)體之間的供應(yīng)關(guān)系不會(huì)發(fā)生突變,即不會(huì) 出現(xiàn)如圖6所示的異常變化。出于說(shuō)明基于關(guān)系歷史規(guī)則對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記的實(shí)施方式的目的,在下面 給出了幾個(gè)示例性的實(shí)體關(guān)系實(shí)例RIOl = <A, B,競(jìng)爭(zhēng),Rulel, Source3>, tlRI02 = <A, B,競(jìng)爭(zhēng),Rule2, Source2>, t2RI03 = <A, B,收購(gòu),Rule4, Source6>, t3RI04 = <A, B,競(jìng)爭(zhēng),Rule3, Source2>, t4RI05 = <C, D,供應(yīng),Rulel, Source3>, t5RI06 = <C, D,供應(yīng),Rule3, Source2>, t6RI07 = <C, D,供應(yīng),Rule2, Source2>, t7RI08 = <D, C,供應(yīng),Rule7, Source5>, t8RI09 = <C, D,供應(yīng),Rule3, Source2>, t9RIlO = <C, D,供應(yīng),Rule2, Sourcel>, tlORIll = <C, D,供應(yīng),Rule2, Source3>, til其中,tl > t2 > t3 > t4 > t5 > t6 > t7 > t8 > t9 > tlO > til。實(shí)體關(guān)系實(shí)例RIOl至RI04是涉及相同實(shí)體A和B的實(shí)體關(guān)系實(shí)例,并且涉及了 示例的施事_受事關(guān)系對(duì)中的施事關(guān)系和受事關(guān)系,即“收購(gòu)”和“競(jìng)爭(zhēng)”。通過(guò)上述給出的 施事受_事關(guān)系對(duì)〈收購(gòu),競(jìng)爭(zhēng),消除 >,可以判定RI04不可靠,因?yàn)樵赗I3的收購(gòu)關(guān)系發(fā)生 后,公司A和公司B之間的競(jìng)爭(zhēng)關(guān)系應(yīng)被消除。類似地,實(shí)體關(guān)系實(shí)例RI05至RIll是涉及相同實(shí)體C和D的實(shí)體關(guān)系實(shí)例,并且 涉及到上述實(shí)例給出的供應(yīng)關(guān)系。根據(jù)上述給出的示例性的關(guān)系歷史判定規(guī)則“〈供應(yīng),不 異常突變 >”,可以判定RI08為不可靠。因此,可以在塊502將實(shí)體關(guān)系實(shí)例RI01-11標(biāo)記為RIOl = <A,B,競(jìng)爭(zhēng),Rulel,Source3,關(guān)系歷史信息-可靠〉RI02 = <A,B,競(jìng)爭(zhēng),Rule2,Source2,關(guān)系歷史信息-可靠〉RI03 = <A,B,收購(gòu),Rule4,Source6,關(guān)系歷史信息-可靠〉RI04 = <A,B,競(jìng)爭(zhēng),Rule3,Source2,關(guān)系歷史信息-不可靠〉
RI05 = <C,D,供應(yīng),Rulel,Source3,關(guān)系歷史信息-可靠〉RI06 = <C,Dj*S,Rule3,Source2,關(guān)系歷史信息-可靠〉RI07 = <C,Dj*S,Rule2,Source2,關(guān)系歷史信息-可靠〉RI08 = <D, C,供應(yīng),Rule7,Source5,關(guān)系歷史信息-不可靠〉RI09 = <C,Dj*S,Rule3,Source2,關(guān)系歷史信息-可靠〉RIlO = <C,Dj*S,Rule2,Sourcel,關(guān)系歷史信息-可靠〉RIll = <C,Dj*S,Rule2,Source3,關(guān)系歷史信息-可靠〉這樣,就可以基于關(guān)系歷史判定規(guī)則為各個(gè)實(shí)體關(guān)系實(shí)例添加關(guān)系歷史關(guān)系的可 靠性標(biāo)記。返回參考圖1,接著在步驟102,對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾,以得到可 靠的實(shí)體關(guān)系實(shí)例。在經(jīng)過(guò)步驟101的處理之后,每個(gè)實(shí)體關(guān)系實(shí)例包括有至少一個(gè)可靠性標(biāo)記。然 后可以根據(jù)該可靠性標(biāo)記對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾。例如,在攜帶有一個(gè)可靠性標(biāo)記的情 況下,直接將標(biāo)記為不可靠的實(shí)體關(guān)系實(shí)例過(guò)濾掉。而在具有多個(gè)可靠性標(biāo)記的情況下,可 以按照特定的準(zhǔn)確率和召回率的要求,可以采用不同的過(guò)濾標(biāo)準(zhǔn)來(lái)過(guò)濾掉不可靠的實(shí)體關(guān) 系實(shí)例。例如,對(duì)于非常嚴(yán)格的準(zhǔn)確率要求,可以設(shè)定只要實(shí)體關(guān)系實(shí)例的可靠性標(biāo)記中有 一個(gè)表示不可靠,則將對(duì)應(yīng)實(shí)體關(guān)系實(shí)例剔除。反之,如果對(duì)準(zhǔn)確率的要求不高,但希望召 回率合理,就可以設(shè)置較低的過(guò)濾標(biāo)準(zhǔn)。例如,可以在實(shí)體關(guān)系實(shí)例的不可靠標(biāo)記超過(guò)半 數(shù)的情況下,將其濾除。此外,還可以在可靠性標(biāo)記滿足一定組合要求下,才濾除對(duì)應(yīng)的實(shí) 體關(guān)系實(shí)例,例如可以在不可靠的標(biāo)記大于或等于兩個(gè)且其中一個(gè)為數(shù)據(jù)源不可靠的情況 下,將該實(shí)體關(guān)系實(shí)例濾除。然后,可以進(jìn)一步將最終得到的認(rèn)為可靠的實(shí)體關(guān)系實(shí)例標(biāo)記為 “machinelabel-可靠”,并存儲(chǔ)起來(lái)以供隨后使用。在上面的實(shí)施方式中,分別描述了基于數(shù)據(jù)源的可信度、抽取規(guī)則的可信度、廣域 上下文信息以及關(guān)系歷史信息對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。但是本法領(lǐng)域技術(shù)人員可以理 解,上面描述的實(shí)施方式可以按各種方式進(jìn)行組合。下面將參考圖7和圖8來(lái)描述根據(jù)本發(fā)明的其他實(shí)施方式的對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行 過(guò)濾的方法。如圖7所示,可以分別在步驟701手工輸入或者導(dǎo)入待標(biāo)記實(shí)體關(guān)系實(shí)例,然后可 以并行地在步驟702、703、704和705分別基于上述各種可靠性相關(guān)信息對(duì)相同實(shí)體關(guān)系實(shí) 例進(jìn)行標(biāo)記。然后,在步驟706,針對(duì)這些相同的實(shí)體關(guān)系實(shí)例,并根據(jù)它們所攜帶的可靠 性標(biāo)記執(zhí)行上述過(guò)濾,在該實(shí)體關(guān)系實(shí)例需要被濾除時(shí),則濾除所有實(shí)例;而認(rèn)為該實(shí)體關(guān) 系實(shí)例可靠需要保留時(shí),則可以將這些相同實(shí)例的其中一個(gè)添加“machinelabel-可靠”標(biāo) 記,并保存起來(lái),濾除其余相同實(shí)體關(guān)系實(shí)例。另外,也可以如圖8所示在步驟801手工輸入或者導(dǎo)入待標(biāo)記的實(shí)體關(guān)系實(shí)例后, 以串行的方式在步驟802、803、804、和805依次對(duì)待標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記,并在步 驟806根據(jù)每個(gè)實(shí)體關(guān)系實(shí)例所攜帶的多個(gè)可靠性標(biāo)記,對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾。需要說(shuō)明的是,也可以將上述基于各種可靠性相關(guān)信息執(zhí)行標(biāo)記的實(shí)施方式合并 在一起。例如可以基于各種可靠性相關(guān)信息首先確定出綜合可信度,然后根據(jù)該綜合可信度和預(yù)定的閾值進(jìn)行標(biāo)記。例如可以基于數(shù)據(jù)源的可信度、抽取規(guī)則的可信度以及廣域上 下文的可信度其中兩個(gè)或多個(gè)來(lái)確定該綜合可信度。需要說(shuō)明的是,雖然在參考關(guān)系歷史判定規(guī)則所描述的實(shí)施方式中,并給出關(guān)系 歷史判定規(guī)則的可信度。但是,本領(lǐng)域技術(shù)人員可以理解,可以與針對(duì)廣域上下文描述的實(shí) 施方式類似,針對(duì)每個(gè)關(guān)系歷史判定規(guī)則給出可信度值,然后計(jì)算出基于該規(guī)則得到的實(shí) 體關(guān)系實(shí)例的可信度。并根據(jù)規(guī)則和預(yù)定的閾值對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。還需說(shuō)明的是,盡管在上述實(shí)施方式中,將輸入的待標(biāo)記實(shí)體關(guān)系實(shí)例描述為利 用實(shí)體關(guān)系抽取技術(shù)從文本抽取得到的實(shí)體關(guān)系實(shí)例,但是本發(fā)明并不局限于此。待標(biāo)記 實(shí)體關(guān)系實(shí)例也可以是已經(jīng)根據(jù)現(xiàn)有技術(shù)經(jīng)過(guò)分析過(guò)濾后得到的實(shí)體關(guān)系實(shí)例。另外,雖然示出了用于各種數(shù)據(jù)和信息的多個(gè)數(shù)據(jù)庫(kù),但是這些數(shù)據(jù)庫(kù)并非必然 是彼此獨(dú)立的數(shù)據(jù)庫(kù),而是也可以是用于存儲(chǔ)各種信息和數(shù)據(jù)的單個(gè)數(shù)據(jù)庫(kù)。在根據(jù)本發(fā)明的優(yōu)選實(shí)施方式中,可以將經(jīng)過(guò)標(biāo)記的、可信度在預(yù)定閾值范圍內(nèi) 的實(shí)體關(guān)系實(shí)例保存到數(shù)據(jù)庫(kù)208和506中,以便在確定例如數(shù)據(jù)源的可信度、抽取規(guī)則的 可信度使用以及供機(jī)器學(xué)習(xí)生成判定規(guī)則時(shí)使用。舉例來(lái)講,可以規(guī)定將可信度大于等于 0. 9的可靠關(guān)系實(shí)例以及可信度等于或小于0. 1的不可靠關(guān)系實(shí)例返回到數(shù)據(jù)庫(kù)中以供隨 后使用。通過(guò)本發(fā)明提供的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法,進(jìn)一步根據(jù)可靠性相關(guān) 信息對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記和過(guò)濾,因此可以得到精確度更高的實(shí)體關(guān)系實(shí)例,從而為 基于實(shí)體關(guān)系實(shí)例的高層分析提供了更加可靠的基礎(chǔ),使得得到的實(shí)體關(guān)系實(shí)例對(duì)于高層 決策具有更大的實(shí)用性。在下文中,將參考圖9來(lái)描述根據(jù)本發(fā)明的用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的設(shè)備。圖9示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的設(shè)備 900。如圖9所示,該設(shè)備900包括標(biāo)記裝置901,用于基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息 來(lái)對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行標(biāo)記;以及過(guò)濾裝置902,用于對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí) 例進(jìn)行過(guò)濾,以得到可靠的實(shí)體關(guān)系實(shí)例。在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中,所述標(biāo)記裝置901可以包括確定裝置,用于基 于該實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息確定該實(shí)體關(guān)系實(shí)例的可信度;以及比較裝置,用于 比較所確定的可信度與預(yù)定的可信度閾值,以將實(shí)體關(guān)系實(shí)例標(biāo)記為可靠或者不可靠。在根據(jù)本發(fā)明的另一實(shí)施方式中,所述可靠性相關(guān)信息可以包括實(shí)體關(guān)系實(shí)例 的數(shù)據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的至少一個(gè),以及其中所述確定 裝置可以被配置為基于實(shí)體關(guān)系實(shí)例的數(shù)據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可 信度中的至少一個(gè)來(lái)確定該實(shí)體關(guān)系的可信度。在根據(jù)本發(fā)明的再一實(shí)施方式中,可以通過(guò)計(jì)算與該數(shù)據(jù)源相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo) 記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例來(lái)得到該數(shù)據(jù)源的可信度。在根據(jù)本發(fā)明的又一實(shí)施方式中,可以基于包括該數(shù)據(jù)源的多個(gè)數(shù)據(jù)源之間的關(guān) 聯(lián)關(guān)系和其中部分?jǐn)?shù)據(jù)源的已知初始可信度,通過(guò)預(yù)定迭代算法,來(lái)得到該多個(gè)數(shù)據(jù)源的
可信度。在根據(jù)本發(fā)明的另一實(shí)施方式中,所述抽取規(guī)則的可信度可以通過(guò)計(jì)算與該抽取規(guī)則相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得到。在根據(jù)本發(fā)明的再一實(shí)施方式中,所述可靠性相關(guān)信息可以包括廣域上下文信息 和預(yù)定的廣域上下文判定規(guī)則,以及其中所述確定裝置可以被配置為基于廣域上下文信息 和預(yù)定的廣域上下文判定規(guī)則來(lái)確定該實(shí)體關(guān)系的可信度。在根據(jù)本發(fā)明的又一實(shí)施方式中,所述可靠性相關(guān)信息可以進(jìn)一步包括廣域上下 文信息和預(yù)定的廣域上下文判定規(guī)則,所述確定裝置可以被配置為進(jìn)一步基于廣域上下文 信息和預(yù)定的廣域上下文判定規(guī)則來(lái)確定該實(shí)體關(guān)系的可信度。在根據(jù)本發(fā)明的另一實(shí)施方式中,所述廣域上下文信息可以是與該實(shí)體關(guān)系實(shí)例 相關(guān)的實(shí)體的商業(yè)類型信息,以及所述預(yù)定的廣域上下文判定規(guī)則是與實(shí)體商業(yè)類型信息 相關(guān)的規(guī)則。在根據(jù)本發(fā)明的再一實(shí)施方式中,所述可靠性相關(guān)信息可以包括關(guān)系歷史判定規(guī) 則,以及其中所述標(biāo)記裝置901可以被配置為基于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的 實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。在根據(jù)本發(fā)明的又一實(shí)施方式中,所述關(guān)系歷史判定規(guī)則可以包括施事-受事關(guān) 系對(duì)和/或關(guān)系變化模式。在根據(jù)本發(fā)明的另一實(shí)施方式中,所述可靠性相關(guān)信息可以進(jìn)一步包括關(guān)系歷史 判定規(guī)則,以及其中所述標(biāo)記裝置可以被配置為進(jìn)一步基于關(guān)系歷史判定規(guī)則對(duì)涉及相同 實(shí)體對(duì)的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。在根據(jù)本發(fā)明的又一實(shí)施方式中,所述設(shè)備900進(jìn)一步包括保存裝置903,用于將 經(jīng)過(guò)標(biāo)記的、可信度在預(yù)定閾值范圍內(nèi)的實(shí)體關(guān)系實(shí)例保存到庫(kù)中。關(guān)于上述實(shí)施方式中的標(biāo)記裝置901以及過(guò)濾裝置902、保存裝置903以及確定裝 置和比較裝置等的具體操作,可以參考上面結(jié)合1至圖8對(duì)于根據(jù)本發(fā)明實(shí)施例方式的用 于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法的描述。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的實(shí)施例可以以軟件、硬件或者軟件和硬件的 結(jié)合來(lái)實(shí)現(xiàn)。硬件部分可以利用專用邏輯來(lái)實(shí)現(xiàn);軟件部分可以存儲(chǔ)在存儲(chǔ)器中,由適當(dāng)?shù)?指令執(zhí)行系統(tǒng),例如微處理器或者專用設(shè)計(jì)硬件來(lái)執(zhí)行。雖然已經(jīng)參考目前考慮到的實(shí)施例描述了本發(fā)明,但應(yīng)該理解本發(fā)明不限于所公 開的實(shí)施方式。相反,本發(fā)明旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和 等同布置。所附權(quán)利要求的范圍符合最廣泛解釋,以包含所有這樣的修改及等同結(jié)構(gòu)和功 能。
權(quán)利要求
一種用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法,包括基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行標(biāo)記;以及對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾,以得到可靠的實(shí)體關(guān)系實(shí)例。
2.根據(jù)權(quán)利要求1所述的方法,其中,對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行標(biāo)記包括 基于該實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息確定該實(shí)體關(guān)系實(shí)例的可信度;以及 比較所確定的可信度與預(yù)定的可信度閾值,以將實(shí)體關(guān)系實(shí)例標(biāo)記為可靠或者不可罪。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述可靠性相關(guān)信息包括實(shí)體關(guān)系實(shí)例的數(shù)據(jù) 源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的至少一個(gè),以及基于實(shí)體關(guān)系實(shí)例的 數(shù)據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的至少一個(gè)來(lái)確定該實(shí)體關(guān)系的可信度。
4.根據(jù)權(quán)利要求3所述的方法,其中,通過(guò)計(jì)算與該數(shù)據(jù)源相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的多 個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例來(lái)得到該數(shù)據(jù)源的可信度。
5.根據(jù)權(quán)利要求3所述的方法,其中,基于包括該數(shù)據(jù)源的多個(gè)數(shù)據(jù)源之間的關(guān)聯(lián)關(guān) 系和其中部分?jǐn)?shù)據(jù)源的已知初始可信度,通過(guò)預(yù)定迭代算法,來(lái)得到該多個(gè)數(shù)據(jù)源的可信度。
6.根據(jù)權(quán)利要求3所述的方法,其中,所述抽取規(guī)則的可信度通過(guò)計(jì)算與該抽取規(guī)則 相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得到。
7.根據(jù)權(quán)利要求2所述的方法,其中,所述可靠性相關(guān)信息包括廣域上下文信息和預(yù) 定的廣域上下文判定規(guī)則,以及其中基于廣域上下文信息和預(yù)定的廣域上下文判定規(guī)則來(lái) 確定該實(shí)體關(guān)系實(shí)例的可信度。
8.根據(jù)權(quán)利要求3所述的方法,其中,所述可靠性相關(guān)信息進(jìn)一步包括廣域上下文信 息和預(yù)定的廣域上下文判定規(guī)則,以及其中進(jìn)一步基于廣域上下文信息和預(yù)定的廣域上下 文判定規(guī)則來(lái)確定該實(shí)體關(guān)系實(shí)例的可信度。
9.根據(jù)權(quán)利要求7或者8所述的方法,其中,所述廣域上下文信息是與該實(shí)體關(guān)系實(shí)例 相關(guān)的實(shí)體的商業(yè)類型信息,以及所述預(yù)定的廣域上下文判定規(guī)則是與實(shí)體商業(yè)類型信息 相關(guān)的規(guī)則。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述可靠性相關(guān)信息包括關(guān)系歷史判定規(guī)則, 以及其中基于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。
11.根據(jù)權(quán)利要求10所述的方法,其中,所述關(guān)系歷史判定規(guī)則包括施事-受事關(guān)系對(duì) 和/或關(guān)系變化模式。
12.根據(jù)權(quán)利要求3、7和8任一項(xiàng)所述的方法,其中,所述可靠性相關(guān)信息進(jìn)一步包括 關(guān)系歷史判定規(guī)則,以及其中進(jìn)一步基于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的實(shí)體關(guān)系 實(shí)例進(jìn)行標(biāo)記。
13.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括將經(jīng)過(guò)標(biāo)記的、可信度在預(yù)定閾值范圍內(nèi) 的實(shí)體關(guān)系實(shí)例保存到庫(kù)中。
14.一種用于對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的設(shè)備,包括標(biāo)記裝置,用于基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行 標(biāo)記;以及過(guò)濾裝置,用于對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾,以得到可靠的實(shí)體關(guān)系實(shí)例。
15.根據(jù)權(quán)利要求14所述的設(shè)備,其中,所述標(biāo)記裝置包括確定裝置,用于基于該實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息確定該實(shí)體關(guān)系實(shí)例的可信 度;以及比較裝置,用于比較所確定的可信度與預(yù)定的可信度閾值,以將實(shí)體關(guān)系實(shí)例標(biāo)記為 可靠或者不可靠。
16.根據(jù)權(quán)利要求15所述的設(shè)備,其中,所述可靠性相關(guān)信息包括實(shí)體關(guān)系實(shí)例的數(shù) 據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的至少一個(gè),以及其中所述確定裝置 被配置為基于實(shí)體關(guān)系實(shí)例的數(shù)據(jù)源的可信度和實(shí)體關(guān)系實(shí)例的抽取規(guī)則的可信度中的 至少一個(gè)來(lái)確定該實(shí)體關(guān)系的可信度。
17.根據(jù)權(quán)利要求16所述的設(shè)備,其中,通過(guò)計(jì)算與該數(shù)據(jù)源相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的 多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例來(lái)得到該數(shù)據(jù)源的可信度。
18.根據(jù)權(quán)利要求16所述的設(shè)備,其中,基于包括該數(shù)據(jù)源的多個(gè)數(shù)據(jù)源之間的關(guān)聯(lián) 關(guān)系和其中部分?jǐn)?shù)據(jù)源的已知初始可信度,通過(guò)預(yù)定迭代算法,來(lái)得到該多個(gè)數(shù)據(jù)源的可 信度。
19.根據(jù)權(quán)利要求16所述的設(shè)備,其中,所述抽取規(guī)則的可信度通過(guò)計(jì)算與該抽取規(guī) 則相關(guān)的、預(yù)先經(jīng)過(guò)標(biāo)記的多個(gè)實(shí)體關(guān)系實(shí)例中可靠實(shí)體關(guān)系實(shí)例的比例而得到。
20.根據(jù)權(quán)利要求15所述的設(shè)備,其中,所述可靠性相關(guān)信息包括廣域上下文信息和 預(yù)定的廣域上下文判定規(guī)則,以及其中所述確定裝置被配置為基于廣域上下文信息和預(yù)定 的廣域上下文判定規(guī)則來(lái)確定該實(shí)體關(guān)系的可信度。
21.根據(jù)權(quán)利要求16所述的設(shè)備,其中,所述可靠性相關(guān)信息進(jìn)一步包括廣域上下文 信息和預(yù)定的廣域上下文判定規(guī)則,所述確定裝置被配置為進(jìn)一步基于廣域上下文信息和 預(yù)定的廣域上下文判定規(guī)則來(lái)確定該實(shí)體關(guān)系的可信度。
22.根據(jù)權(quán)利要求20或者21所述的設(shè)備,其中,所述廣域上下文信息是與該實(shí)體關(guān)系 實(shí)例相關(guān)的實(shí)體的商業(yè)類型信息,以及所述預(yù)定的廣域上下文判定規(guī)則是與實(shí)體商業(yè)類型 信息相關(guān)的規(guī)則。
23.根據(jù)權(quán)利要求14所述的設(shè)備,其中,所述可靠性相關(guān)信息包括關(guān)系歷史判定規(guī)則, 以及其中所述標(biāo)記裝置被配置為基于關(guān)系歷史判定規(guī)則對(duì)涉及相同實(shí)體對(duì)的實(shí)體關(guān)系實(shí) 例進(jìn)行標(biāo)記。
24.根據(jù)權(quán)利要求23所述的設(shè)備,其中,所述關(guān)系歷史判定規(guī)則包括施事_受事關(guān)系對(duì) 和/或關(guān)系變化模式。
25.根據(jù)權(quán)利要求16、20和21任意一個(gè)所述的設(shè)備,其中,所述可靠性相關(guān)信息進(jìn)一步 包括關(guān)系歷史判定規(guī)則,以及其中所述標(biāo)記裝置被配置為進(jìn)一步基于關(guān)系歷史判定規(guī)則對(duì) 涉及相同實(shí)體對(duì)的實(shí)體關(guān)系實(shí)例進(jìn)行標(biāo)記。
26.根據(jù)權(quán)利要求14所述的設(shè)備,進(jìn)一步包括保存裝置,用于將經(jīng)過(guò)標(biāo)記的、可信度在 預(yù)定閾值范圍內(nèi)的實(shí)體關(guān)系實(shí)例保存到庫(kù)中。
全文摘要
本發(fā)明提供了一種對(duì)實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾的方法和設(shè)備。所述方法可以包括基于實(shí)體關(guān)系實(shí)例的可靠性相關(guān)信息來(lái)對(duì)實(shí)體關(guān)系實(shí)例的可靠性進(jìn)行標(biāo)記;以及對(duì)經(jīng)過(guò)標(biāo)記的實(shí)體關(guān)系實(shí)例進(jìn)行過(guò)濾,以得到可靠的實(shí)體關(guān)系實(shí)例。通過(guò)本發(fā)明,可以得到精確度更高的實(shí)體關(guān)系實(shí)例,為基于實(shí)體關(guān)系實(shí)例的高層分析提供了更加可靠的基礎(chǔ),從而使得得到的實(shí)體關(guān)系實(shí)例對(duì)于高層決策具有更大的實(shí)用性。
文檔編號(hào)G06F17/30GK101882259SQ20091013805
公開日2010年11月10日 申請(qǐng)日期2009年5月6日 優(yōu)先權(quán)日2009年5月6日
發(fā)明者沈國(guó)陽(yáng), 胡長(zhǎng)建, 許洪志 申請(qǐng)人:日電(中國(guó))有限公司