本發(fā)明屬于信息搜索領(lǐng)域,尤其涉及一種基于知識(shí)圖譜的短文本理解方法及裝置。
背景技術(shù):
知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來標(biāo)識(shí),稱為它們的標(biāo)識(shí)符(identifier)。每個(gè)屬性-值對(duì)(attribute-value pair,又稱AVP)用來刻畫實(shí)體的內(nèi)在特性,而關(guān)系(relation)用來連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。知識(shí)圖譜亦可被看作是一張巨大的圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成,如圖1所示,為知識(shí)圖譜的示意圖,現(xiàn)在知識(shí)圖譜主要應(yīng)用在答案推理,文檔重要性排序和精確查詢中。
目前的知識(shí)圖譜的產(chǎn)品的搜索都是需要精確編輯搜索語句或者是基于一種文本規(guī)則進(jìn)行查詢搜索,并不能實(shí)現(xiàn)基于日常語句的查詢搜索,因此,知識(shí)圖譜基于日常語句的查詢搜索成為本領(lǐng)域技術(shù)人員需要解決的問題,
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的之一在于提供一種基于知識(shí)圖譜的短文本理解方法,其能解決基于知識(shí)圖譜的簡(jiǎn)單語句的查詢理解的技術(shù)問題。
本發(fā)明的目的之二在于提供一種基于知識(shí)圖譜的短文本的理解裝置,其能解決基于知識(shí)圖譜的簡(jiǎn)單語句的查詢理解的技術(shù)問題。
本發(fā)明的目的之一采用以下技術(shù)方案實(shí)現(xiàn):
一種基于知識(shí)圖譜的短文本理解方法,包括以下步驟:
S1:根據(jù)知識(shí)圖譜數(shù)據(jù)抽取短文本中的特征詞,所述知識(shí)圖譜數(shù)據(jù)包括實(shí)體、屬性、概念和關(guān)系,所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞中的一種或多種;
S2:判斷抽取到的特征詞是否為實(shí)體特征詞,如果是,則執(zhí)行步驟S3;如果否,則執(zhí)行步驟S4;
S3:將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群,然后執(zhí)行步驟S5;
S4:在知識(shí)圖譜數(shù)據(jù)中檢索出與屬性特征詞或者與概念特征詞對(duì)應(yīng)的實(shí)體特征詞,然后對(duì)檢索后的實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征詞相關(guān)聯(lián)的特征詞群,然后執(zhí)行步驟S5;
S5:根據(jù)特征詞群生成結(jié)果樹。
優(yōu)選地,在步驟S1和步驟S2之間還包括以下步驟,
S11:按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的每一個(gè)特征詞進(jìn)行保存,所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置;
S12:判斷抽取到的特征詞是否相近,如果是,則執(zhí)行步驟S13;如果否,則執(zhí)行步驟S2;
S13:比對(duì)至少兩個(gè)特征詞的預(yù)設(shè)結(jié)構(gòu)中的開始位置和結(jié)束位置,如果開始位置相同,則執(zhí)行步驟S14;如果開始位置不同,則執(zhí)行步驟S15;
S14:去除結(jié)束位置大的特征詞;
S15:去除開始位置大的特征詞。能夠進(jìn)一步提高識(shí)別的準(zhǔn)確性。
優(yōu)選地,在步驟S1中具體為:根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞。其能進(jìn)一步解決抽取特征詞的速度的技術(shù)問題。
優(yōu)選地,步驟S3和步驟S4中的知識(shí)圖譜搜索主要包括以下步驟:
根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中與實(shí)體對(duì)應(yīng)的屬性和關(guān)系;
對(duì)與實(shí)體特征詞對(duì)應(yīng)的概念進(jìn)行知識(shí)圖譜搜索;
遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體和關(guān)系;
當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí),則停止搜索。
本發(fā)明的目的之二采用以下技術(shù)方案實(shí)現(xiàn):
一種基于知識(shí)圖譜的短文本理解裝置,包括以下模塊:
抽取模塊:根據(jù)知識(shí)圖譜數(shù)據(jù)抽取短文本中的特征詞,所述知識(shí)圖譜數(shù)據(jù)包括實(shí)體、屬性、概念和關(guān)系,所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞;
第一判斷模塊:對(duì)特征詞進(jìn)行判斷,如果特征詞為實(shí)體特征詞,則執(zhí)行實(shí)體搜索模塊;如果特征詞為屬性特征詞、關(guān)系特征詞或者概念特征詞,則執(zhí)行關(guān)系搜索模塊;
實(shí)體搜索模塊:將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群,然后執(zhí)行步驟生成模塊;
關(guān)系搜索模塊:在知識(shí)圖譜數(shù)據(jù)中檢索出與屬性特征詞或者與概念特征詞對(duì)應(yīng)的實(shí)體特征詞,然后對(duì)檢索后的實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征詞相關(guān)聯(lián)的特征詞群,然后執(zhí)行生成模塊;
生成模塊:根據(jù)特征詞群生成結(jié)果樹。
優(yōu)選地,在抽取模塊與第一判斷模塊之間還包括以下子模塊,
在抽取模塊與第一判斷模塊之間還包括以下子模塊,
存儲(chǔ)模塊:按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的每一個(gè)特征詞進(jìn)行保存,所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置;
第二判斷模塊:判斷抽取到的特征詞是否相近,如果是,則執(zhí)行比對(duì)模塊,如果否,則執(zhí)行第一判斷模塊
比對(duì)模塊:比對(duì)至少兩個(gè)特征詞的預(yù)設(shè)結(jié)構(gòu)中的開始位置和結(jié)束位置,如果開始位置相同,則執(zhí)行第一去除模塊,如果開始位置不同,則執(zhí)行第二去除模塊;
第一去除模塊:去除結(jié)束位置大的特征詞;
第二去除模塊:去除開始位置大的特征詞。能夠進(jìn)一步解決準(zhǔn)確性的技術(shù)問題。
優(yōu)選地,在抽取模塊中:根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞。其能進(jìn)一步解決抽取特征詞的速度的技術(shù)問題。
優(yōu)選地,實(shí)體搜索模塊和關(guān)系搜索模塊中的知識(shí)圖譜搜索主要包括以下子模塊,
屬性關(guān)系遍歷模塊:根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中與實(shí)體對(duì)應(yīng)的屬性和關(guān)系;
概念遍歷模塊:對(duì)與實(shí)體特征詞相關(guān)的概念名稱進(jìn)行知識(shí)圖譜搜索;
實(shí)體遍歷模塊:遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體和關(guān)系;
終止模塊:當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí),則停止搜索。其能進(jìn)一步公開知識(shí)圖譜搜索中的各個(gè)模塊。
相比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:
本發(fā)明能夠使得知識(shí)圖譜產(chǎn)品的搜索與查詢更為的方便,不需要精確的編輯搜索語句或者按照一定的文本規(guī)則進(jìn)行語句的編輯,大大提高了基于知識(shí)圖譜的查詢的效率,降低了使用者的使用成本,使得其更加容易進(jìn)行推廣。
附圖說明
圖1為現(xiàn)有技術(shù)的知識(shí)圖譜的示意圖;
圖2為本發(fā)明一種基于知識(shí)圖譜的短文本理解方法的流程圖;
圖3為本發(fā)明一種基于知識(shí)圖譜的短文本理解方法的結(jié)構(gòu)圖。
具體實(shí)施方式
下面,結(jié)合附圖以及具體實(shí)施方式,對(duì)本發(fā)明做進(jìn)一步描述:
如圖1所示,本發(fā)明提供了一種基于知識(shí)圖譜短文本的理解方法,包括以下步驟:
S1:根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞,所述知識(shí)圖譜知識(shí)包括實(shí)體、屬性、概念和關(guān)系,所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞;在本實(shí)施例中以“廣州市花是什么”為例子對(duì)本方案進(jìn)行詳盡的闡述,在步驟S1中通過多模式匹配算法能夠得到“廣州”、“廣州市”和“市花”這三個(gè)特征詞,其中“廣州”為實(shí)體特征詞,“市花”則為屬性特征詞,多模式匹配算法為本領(lǐng)域的常用的提取關(guān)鍵詞的算法,因此在此就不在過多對(duì)該算法進(jìn)行闡釋;
S11:按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的特征詞進(jìn)行保存,所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置;每個(gè)抽取出來的特征詞都會(huì)有[特征詞,所屬類型,開始位置,結(jié)束位置],開始位置即是該特征詞在一句話中的起始位置,比如“廣州”在“廣州市花是什么”中的開始位置為0,其結(jié)束位置即是2,其中所屬類型為該特征詞屬于實(shí)體、概念、關(guān)系和屬性這四種中的具體那個(gè);由S1抽取到的詞可以得出結(jié)果[廣州,實(shí)體,0,2],[廣州市,實(shí)體,0,3]和[市花,屬性,2,4];
S12:判斷抽取到的特征詞是否相近,如果是,則執(zhí)行步驟S13;如果否,則執(zhí)行步驟S2;
S13:比對(duì)相同特征詞的預(yù)設(shè)結(jié)構(gòu)中的的開始位置和結(jié)束位置,如果開始位置相同,則執(zhí)行步驟S14;如果開始位置不同,則執(zhí)行步驟S15;
S14:去除結(jié)束位置大的特征詞;
S15:去除開始位置大的特征詞。例如在上述舉得例子中,廣州和廣州市屬于同義詞,起點(diǎn)位置一樣,則取短的廣州,去掉廣州市,如果兩個(gè)不是同義詞也要選擇長(zhǎng)度較短的作為抽取后的特征詞。第二,如果特征詞的開始位置不一樣,則選取起點(diǎn)較小的那個(gè)。通過預(yù)設(shè)規(guī)則來對(duì)抽取到的特征詞進(jìn)行進(jìn)一步的刪選,使得后期進(jìn)行知識(shí)圖譜搜索時(shí),能夠更加高效的運(yùn)行。
S2:對(duì)特征詞進(jìn)行判斷,如果特征詞為實(shí)體特征詞,則執(zhí)行步驟S3;如果特征詞為屬性特征詞、關(guān)系特征詞或者概念特征詞,則執(zhí)行步驟S4;此步驟的主要目的是將屬性特征詞、關(guān)系特征詞和概念特征詞等轉(zhuǎn)換為實(shí)體特征詞,然后通過實(shí)體特征詞來進(jìn)行下述的搜索。
S3:將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群,然后執(zhí)行步驟S5;
S4:在知識(shí)圖譜數(shù)據(jù)中檢索出與屬性特征詞或者與概念特征詞對(duì)應(yīng)的實(shí)體特征詞,然后對(duì)檢索后的實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征詞相關(guān)聯(lián)的特征詞群,然后執(zhí)行步驟S5;步驟S3和S4中的知識(shí)圖譜搜索主要有如下的子步驟構(gòu)成,
根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中實(shí)體的屬性名稱和關(guān)系名稱;
對(duì)與實(shí)體特征詞相關(guān)的概念名稱進(jìn)行知識(shí)圖譜搜索;
遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體名稱和關(guān)系名稱;
當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí),則停止搜索。
S5:根據(jù)特征詞群生成結(jié)果樹。
如圖2所示,本發(fā)明還提供了一種基于知識(shí)圖譜的短文本的理解裝置,其包括以下模塊,
抽取模塊:根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞,所述知識(shí)圖譜數(shù)據(jù)包括實(shí)體、屬性、概念和關(guān)系,所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞;
存儲(chǔ)模塊:按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的每一個(gè)特征詞進(jìn)行保存,所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置;
第二判斷模塊:判斷抽取到的特征詞是否相近,如果是,則執(zhí)行比對(duì)模塊,如果否,則執(zhí)行第一判斷模塊
比對(duì)模塊:比對(duì)至少兩個(gè)特征詞的預(yù)設(shè)結(jié)構(gòu)中的開始位置和結(jié)束位置,如果開始位置相同,則執(zhí)行第一去除模塊,如果開始位置不同,則執(zhí)行第二去除模塊;
第一去除模塊:去除結(jié)束位置大的特征詞;
第二去除模塊:去除開始位置大的特征詞。
第一判斷模塊:對(duì)特征詞進(jìn)行判斷,如果特征詞為實(shí)體特征詞,則執(zhí)行實(shí)體搜索模塊;如果特征詞為屬性特征詞、關(guān)系特征詞或者概念特征詞,則執(zhí)行關(guān)系搜索模塊;
實(shí)體搜索模塊:將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群,然后執(zhí)行步驟生成模塊;
關(guān)系搜索模塊:在知識(shí)圖譜數(shù)據(jù)中檢索出與屬性特征詞或者與概念特征詞對(duì)應(yīng)的實(shí)體特征詞,然后對(duì)檢索后的實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索,以獲取與實(shí)體特征詞相關(guān)聯(lián)的特征詞群,然后執(zhí)行生成模塊;
屬性關(guān)系遍歷模塊:根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中與實(shí)體對(duì)應(yīng)的屬性和關(guān)系;
概念遍歷模塊:對(duì)與實(shí)體特征詞相關(guān)的概念名稱進(jìn)行知識(shí)圖譜搜索;
實(shí)體遍歷模塊:遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體和關(guān)系;
終止模塊:當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí),則停止搜索。
生成模塊:根據(jù)特征詞群生成結(jié)果樹。
對(duì)本領(lǐng)域的技術(shù)人員來說,可根據(jù)以上描述的技術(shù)方案以及構(gòu)思,做出其它各種相應(yīng)的改變以及形變,而所有的這些改變以及形變都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。