一種基于知識(shí)圖譜的短文本理解方法及裝置與流程

文檔序號(hào)：11436725閱讀：396來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于信息搜索領(lǐng)域，尤其涉及一種基于知識(shí)圖譜的短文本理解方法及裝置。

背景技術(shù)：

知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中，每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來標(biāo)識(shí)，稱為它們的標(biāo)識(shí)符(identifier)。每個(gè)屬性-值對(duì)(attribute-value pair，又稱AVP)用來刻畫實(shí)體的內(nèi)在特性，而關(guān)系(relation)用來連接兩個(gè)實(shí)體，刻畫它們之間的關(guān)聯(lián)。知識(shí)圖譜亦可被看作是一張巨大的圖，圖中的節(jié)點(diǎn)表示實(shí)體或概念，而圖中的邊則由屬性或關(guān)系構(gòu)成，如圖1所示，為知識(shí)圖譜的示意圖，現(xiàn)在知識(shí)圖譜主要應(yīng)用在答案推理，文檔重要性排序和精確查詢中。

目前的知識(shí)圖譜的產(chǎn)品的搜索都是需要精確編輯搜索語句或者是基于一種文本規(guī)則進(jìn)行查詢搜索，并不能實(shí)現(xiàn)基于日常語句的查詢搜索，因此，知識(shí)圖譜基于日常語句的查詢搜索成為本領(lǐng)域技術(shù)人員需要解決的問題，

技術(shù)實(shí)現(xiàn)要素：

為了克服現(xiàn)有技術(shù)的不足，本發(fā)明的目的之一在于提供一種基于知識(shí)圖譜的短文本理解方法，其能解決基于知識(shí)圖譜的簡(jiǎn)單語句的查詢理解的技術(shù)問題。

本發(fā)明的目的之二在于提供一種基于知識(shí)圖譜的短文本的理解裝置，其能解決基于知識(shí)圖譜的簡(jiǎn)單語句的查詢理解的技術(shù)問題。

本發(fā)明的目的之一采用以下技術(shù)方案實(shí)現(xiàn)：

一種基于知識(shí)圖譜的短文本理解方法，包括以下步驟：

S1：根據(jù)知識(shí)圖譜數(shù)據(jù)抽取短文本中的特征詞，所述知識(shí)圖譜數(shù)據(jù)包括實(shí)體、屬性、概念和關(guān)系，所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞中的一種或多種；

S2：判斷抽取到的特征詞是否為實(shí)體特征詞，如果是，則執(zhí)行步驟S3；如果否，則執(zhí)行步驟S4；

S3：將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索，以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群，然后執(zhí)行步驟S5；

S4：在知識(shí)圖譜數(shù)據(jù)中檢索出與屬性特征詞或者與概念特征詞對(duì)應(yīng)的實(shí)體特征詞，然后對(duì)檢索后的實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索，以獲取與實(shí)體特征詞相關(guān)聯(lián)的特征詞群，然后執(zhí)行步驟S5；

S5：根據(jù)特征詞群生成結(jié)果樹。

優(yōu)選地，在步驟S1和步驟S2之間還包括以下步驟，

S11：按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的每一個(gè)特征詞進(jìn)行保存，所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置；

S12：判斷抽取到的特征詞是否相近，如果是，則執(zhí)行步驟S13；如果否，則執(zhí)行步驟S2；

S13：比對(duì)至少兩個(gè)特征詞的預(yù)設(shè)結(jié)構(gòu)中的開始位置和結(jié)束位置，如果開始位置相同，則執(zhí)行步驟S14；如果開始位置不同，則執(zhí)行步驟S15；

S14：去除結(jié)束位置大的特征詞；

S15：去除開始位置大的特征詞。能夠進(jìn)一步提高識(shí)別的準(zhǔn)確性。

優(yōu)選地，在步驟S1中具體為：根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞。其能進(jìn)一步解決抽取特征詞的速度的技術(shù)問題。

優(yōu)選地，步驟S3和步驟S4中的知識(shí)圖譜搜索主要包括以下步驟：

根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中與實(shí)體對(duì)應(yīng)的屬性和關(guān)系；

對(duì)與實(shí)體特征詞對(duì)應(yīng)的概念進(jìn)行知識(shí)圖譜搜索；

遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體和關(guān)系；

當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí)，則停止搜索。

本發(fā)明的目的之二采用以下技術(shù)方案實(shí)現(xiàn)：

一種基于知識(shí)圖譜的短文本理解裝置，包括以下模塊：

抽取模塊：根據(jù)知識(shí)圖譜數(shù)據(jù)抽取短文本中的特征詞，所述知識(shí)圖譜數(shù)據(jù)包括實(shí)體、屬性、概念和關(guān)系，所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞；

第一判斷模塊：對(duì)特征詞進(jìn)行判斷，如果特征詞為實(shí)體特征詞，則執(zhí)行實(shí)體搜索模塊；如果特征詞為屬性特征詞、關(guān)系特征詞或者概念特征詞，則執(zhí)行關(guān)系搜索模塊；

實(shí)體搜索模塊：將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索，以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群，然后執(zhí)行步驟生成模塊；

關(guān)系搜索模塊：在知識(shí)圖譜數(shù)據(jù)中檢索出與屬性特征詞或者與概念特征詞對(duì)應(yīng)的實(shí)體特征詞，然后對(duì)檢索后的實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索，以獲取與實(shí)體特征詞相關(guān)聯(lián)的特征詞群，然后執(zhí)行生成模塊；

生成模塊：根據(jù)特征詞群生成結(jié)果樹。

優(yōu)選地，在抽取模塊與第一判斷模塊之間還包括以下子模塊，

在抽取模塊與第一判斷模塊之間還包括以下子模塊，

存儲(chǔ)模塊：按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的每一個(gè)特征詞進(jìn)行保存，所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置；

第二判斷模塊：判斷抽取到的特征詞是否相近，如果是，則執(zhí)行比對(duì)模塊，如果否，則執(zhí)行第一判斷模塊

比對(duì)模塊：比對(duì)至少兩個(gè)特征詞的預(yù)設(shè)結(jié)構(gòu)中的開始位置和結(jié)束位置，如果開始位置相同，則執(zhí)行第一去除模塊，如果開始位置不同，則執(zhí)行第二去除模塊；

第一去除模塊：去除結(jié)束位置大的特征詞；

第二去除模塊：去除開始位置大的特征詞。能夠進(jìn)一步解決準(zhǔn)確性的技術(shù)問題。

優(yōu)選地，在抽取模塊中：根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞。其能進(jìn)一步解決抽取特征詞的速度的技術(shù)問題。

優(yōu)選地，實(shí)體搜索模塊和關(guān)系搜索模塊中的知識(shí)圖譜搜索主要包括以下子模塊，

屬性關(guān)系遍歷模塊：根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中與實(shí)體對(duì)應(yīng)的屬性和關(guān)系；

概念遍歷模塊：對(duì)與實(shí)體特征詞相關(guān)的概念名稱進(jìn)行知識(shí)圖譜搜索；

實(shí)體遍歷模塊：遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體和關(guān)系；

終止模塊：當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí)，則停止搜索。其能進(jìn)一步公開知識(shí)圖譜搜索中的各個(gè)模塊。

相比現(xiàn)有技術(shù)，本發(fā)明的有益效果在于：

本發(fā)明能夠使得知識(shí)圖譜產(chǎn)品的搜索與查詢更為的方便，不需要精確的編輯搜索語句或者按照一定的文本規(guī)則進(jìn)行語句的編輯，大大提高了基于知識(shí)圖譜的查詢的效率，降低了使用者的使用成本，使得其更加容易進(jìn)行推廣。

附圖說明

圖1為現(xiàn)有技術(shù)的知識(shí)圖譜的示意圖；

圖2為本發(fā)明一種基于知識(shí)圖譜的短文本理解方法的流程圖；

圖3為本發(fā)明一種基于知識(shí)圖譜的短文本理解方法的結(jié)構(gòu)圖。

具體實(shí)施方式

下面，結(jié)合附圖以及具體實(shí)施方式，對(duì)本發(fā)明做進(jìn)一步描述：

如圖1所示，本發(fā)明提供了一種基于知識(shí)圖譜短文本的理解方法，包括以下步驟：

S1：根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞，所述知識(shí)圖譜知識(shí)包括實(shí)體、屬性、概念和關(guān)系，所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞；在本實(shí)施例中以“廣州市花是什么”為例子對(duì)本方案進(jìn)行詳盡的闡述，在步驟S1中通過多模式匹配算法能夠得到“廣州”、“廣州市”和“市花”這三個(gè)特征詞，其中“廣州”為實(shí)體特征詞，“市花”則為屬性特征詞，多模式匹配算法為本領(lǐng)域的常用的提取關(guān)鍵詞的算法，因此在此就不在過多對(duì)該算法進(jìn)行闡釋；

S11：按照預(yù)設(shè)結(jié)構(gòu)對(duì)抽取的特征詞進(jìn)行保存，所述預(yù)設(shè)結(jié)構(gòu)包括特征詞、所屬類型、開始位置和結(jié)束位置；每個(gè)抽取出來的特征詞都會(huì)有[特征詞，所屬類型，開始位置，結(jié)束位置]，開始位置即是該特征詞在一句話中的起始位置，比如“廣州”在“廣州市花是什么”中的開始位置為0，其結(jié)束位置即是2，其中所屬類型為該特征詞屬于實(shí)體、概念、關(guān)系和屬性這四種中的具體那個(gè)；由S1抽取到的詞可以得出結(jié)果[廣州，實(shí)體，0，2]，[廣州市，實(shí)體，0,3]和[市花，屬性，2，4]；

S12：判斷抽取到的特征詞是否相近，如果是，則執(zhí)行步驟S13；如果否，則執(zhí)行步驟S2；

S13：比對(duì)相同特征詞的預(yù)設(shè)結(jié)構(gòu)中的的開始位置和結(jié)束位置，如果開始位置相同，則執(zhí)行步驟S14；如果開始位置不同，則執(zhí)行步驟S15；

S14：去除結(jié)束位置大的特征詞；

S15：去除開始位置大的特征詞。例如在上述舉得例子中，廣州和廣州市屬于同義詞，起點(diǎn)位置一樣，則取短的廣州，去掉廣州市，如果兩個(gè)不是同義詞也要選擇長(zhǎng)度較短的作為抽取后的特征詞。第二，如果特征詞的開始位置不一樣，則選取起點(diǎn)較小的那個(gè)。通過預(yù)設(shè)規(guī)則來對(duì)抽取到的特征詞進(jìn)行進(jìn)一步的刪選，使得后期進(jìn)行知識(shí)圖譜搜索時(shí)，能夠更加高效的運(yùn)行。

S2：對(duì)特征詞進(jìn)行判斷，如果特征詞為實(shí)體特征詞，則執(zhí)行步驟S3；如果特征詞為屬性特征詞、關(guān)系特征詞或者概念特征詞，則執(zhí)行步驟S4；此步驟的主要目的是將屬性特征詞、關(guān)系特征詞和概念特征詞等轉(zhuǎn)換為實(shí)體特征詞，然后通過實(shí)體特征詞來進(jìn)行下述的搜索。

S3：將每一實(shí)體特征詞在知識(shí)圖譜數(shù)據(jù)中進(jìn)行搜索，以獲取與實(shí)體特征次相關(guān)聯(lián)的特征詞群，然后執(zhí)行步驟S5；

根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中實(shí)體的屬性名稱和關(guān)系名稱；

對(duì)與實(shí)體特征詞相關(guān)的概念名稱進(jìn)行知識(shí)圖譜搜索；

遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體名稱和關(guān)系名稱；

當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí)，則停止搜索。

S5：根據(jù)特征詞群生成結(jié)果樹。

如圖2所示，本發(fā)明還提供了一種基于知識(shí)圖譜的短文本的理解裝置，其包括以下模塊，

抽取模塊：根據(jù)知識(shí)圖譜數(shù)據(jù)以多模式匹配算法抽取短文本中的特征詞，所述知識(shí)圖譜數(shù)據(jù)包括實(shí)體、屬性、概念和關(guān)系，所述特征詞包括實(shí)體特征詞、屬性特征詞、概念特征詞和關(guān)系特征詞；

第二判斷模塊：判斷抽取到的特征詞是否相近，如果是，則執(zhí)行比對(duì)模塊，如果否，則執(zhí)行第一判斷模塊

第一去除模塊：去除結(jié)束位置大的特征詞；

第二去除模塊：去除開始位置大的特征詞。

屬性關(guān)系遍歷模塊：根據(jù)實(shí)體特征詞遍歷知識(shí)圖譜數(shù)據(jù)中與實(shí)體對(duì)應(yīng)的屬性和關(guān)系；

概念遍歷模塊：對(duì)與實(shí)體特征詞相關(guān)的概念名稱進(jìn)行知識(shí)圖譜搜索；

實(shí)體遍歷模塊：遍歷與實(shí)體特征詞相關(guān)聯(lián)的實(shí)體和關(guān)系；

終止模塊：當(dāng)識(shí)別后的特征詞全部出現(xiàn)過時(shí)，則停止搜索。

生成模塊：根據(jù)特征詞群生成結(jié)果樹。

對(duì)本領(lǐng)域的技術(shù)人員來說，可根據(jù)以上描述的技術(shù)方案以及構(gòu)思，做出其它各種相應(yīng)的改變以及形變，而所有的這些改變以及形變都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃明新;
技術(shù)所有人：廣州安望信息科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

知識(shí)圖譜構(gòu)建方法相關(guān)技術(shù)

遺傳圖譜的構(gòu)建方法相關(guān)技術(shù)

知識(shí)圖譜分析方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于知識(shí)圖譜的短文本理解方法及裝置與流程