一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法與流程

文檔序號：11216499閱讀：776來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法與流程

本發(fā)明屬于自然語言理解領(lǐng)域，一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法。

背景技術(shù)：

伴隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)增長的速度越來越快。同時,這些數(shù)據(jù)中也充斥著大量無用、冗余的信息。讓計算機(jī)“理解”文本的含義,并從大數(shù)據(jù)中收集、獲取有價值的信息變得越來越重要。大數(shù)據(jù)具有4個特點(diǎn):大量、高速、多樣、價值，這些特征使得計算機(jī)快速從互聯(lián)網(wǎng)上獲取有價值的信息變得越來越困難。然而,一旦計算機(jī)深層次地理解了文本的語義,計算機(jī)就可以在互聯(lián)網(wǎng)上自動收集、整理有價值的信息,極大地提高了勞動生產(chǎn)力。

文本蘊(yùn)涵推理是自然語言處理的領(lǐng)域的關(guān)鍵和前沿問題之一,也是機(jī)器閱讀的核心技術(shù),它表現(xiàn)了人工智能中復(fù)雜性和自然語言的不確定性。另外,許多自然語言理解的任務(wù),包括自動問答、信息檢索與提取、機(jī)器翻譯等都以該研究為核心。

雖然數(shù)據(jù)量得到了足夠的積累，計算能力得到了大幅度提升，但相關(guān)的智能算法還存在著諸多問題，在自然語言理解方面存在著空白，如何使機(jī)器能夠理解當(dāng)前的文本并作出進(jìn)一步的推理，成為當(dāng)前自然語言理解里面的一個難點(diǎn)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足，并提供一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法

本發(fā)明的技術(shù)方案是：

一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法，具體按如下步驟進(jìn)行：

步驟1：獲取兩個文本，將其中一個文本作為“前提”，另一個文本作為“假設(shè)”，并進(jìn)行預(yù)處理，生成“前提”字符串和“假設(shè)”字符串其中l(wèi)p為“前提”字符串s^p的長度，lh為“假設(shè)”字符串s^h的長度；

步驟2：將“前提”字符s^p和“假設(shè)”字符串s^h，采用str2matrix方法，生成n×lmax的“前提”基本矩陣m^p的和n×lmax的“假設(shè)”基本矩陣m^h；lmax為預(yù)設(shè)的最大句子長度；

步驟3：計算“前提”和“假設(shè)”的距離關(guān)系矩陣d^p和距離關(guān)系矩陣d^h；

步驟4：生成“前提”和“假設(shè)”的聯(lián)合矩陣u^p和聯(lián)合矩陣矩陣u^h；

步驟5：將“前提”和“假設(shè)”中的聯(lián)合矩陣分別送入深度學(xué)習(xí)模型中，生成m維雙精度的“前提”句向量v^p和“假設(shè)”句向量v^h；

步驟6:將“前提”和“假設(shè)”的句向量按照句向量混合方法生成分類向量；

步驟7：將分類向量送入分類器，分類器輸出“前提”和“假設(shè)”的關(guān)系。

進(jìn)一步的，“前提”是由中文或英文文本組成的短語；“假設(shè)”是由中文或英文文本組成的短語；“關(guān)系”是“前提”和“假設(shè)”之間的推理關(guān)系，推理關(guān)系包括：“蘊(yùn)含”、“矛盾”和“中立”。

進(jìn)一步的，所述步驟1中的預(yù)處理為：對“前提”和“假設(shè)”字符串進(jìn)行分詞處理

進(jìn)一步的，所述步驟2中的str2matrix方法具體按如下步驟進(jìn)行：

步驟1:s是需要處理的字符串，l為該字符串的長度，令i＝0，生成n×lmax的零矩陣d；

步驟2:如果i小于等于l，執(zhí)行步驟3，否則執(zhí)行步驟5；

步驟3:在預(yù)訓(xùn)練好的字典中查找第i個單詞或詞語si是否存在，如果存在，將矩陣d的第i行替換成字符串s中第i個單詞或詞語si對應(yīng)的n維雙精度的詞向量，如果字典中不存在si對應(yīng)的n維雙精度的詞向量，則隨機(jī)初始化詞向量，并將將矩陣d的第i行替換成則隨機(jī)初始化詞向量；

步驟4:i加1，執(zhí)行步驟2；

步驟5:結(jié)束。

進(jìn)一步的，所述步驟3中距離關(guān)系矩陣dp和dh的計算方法如下：

距離關(guān)系矩陣dp為lmax×lmax的矩陣如下：

距離關(guān)系矩陣dh為lmax×lmax的矩陣如下：

其中d(x,y)為計算詞向量x與詞向量y距離的函數(shù)；表示“前提”矩陣m^p的第i行；表示“前提”矩陣m^h的第i行。

進(jìn)一步的，所述步驟4中“前提”和“假設(shè)”的聯(lián)合矩陣計算方法為：將基本矩陣和距離關(guān)系矩陣對應(yīng)行收尾相接的方式生成聯(lián)合矩陣。

進(jìn)一步的，所述步驟5中聯(lián)合矩陣的送入方式是將聯(lián)合矩陣的行向量逐個有序的送入深度學(xué)習(xí)模型中。

進(jìn)一步的，所述步驟6中的句向量混合方法具體實(shí)現(xiàn)方式如下：

計算v^ph1,v^ph2,v^ph3,v^ph4四個混合相量，并將其合并成最終的4m維的混合相量v^fin，混合相量的計算公式分別為：

v^fin＝[v^ph1v^ph2v^ph3v^ph4]

式中：vi^p為“前提”句向量v^p的第i個元素，vi^h為“假設(shè)”句向量v^h的第i個元素，i＝1,2,…,m。

本發(fā)明相對于現(xiàn)有技術(shù)而言，具有以下有益效果：在文本推理蘊(yùn)含關(guān)系時，可在同等向量長度的前提下包含更多信息，使算法的效率和精度大大提升?？梢愿玫膶?shí)現(xiàn)自然語言理解任務(wù)。

附圖說明

圖1為本發(fā)明具體實(shí)施方式的結(jié)構(gòu)原理示意圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明做進(jìn)一步闡述和說明。本發(fā)明中各個實(shí)施方式的技術(shù)特征在沒有相互沖突的前提下，均可進(jìn)行相應(yīng)組合。

如圖1所示，一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法，具體按如下步驟進(jìn)行：

其中：“前提”是由中文或英文文本組成的短語；“假設(shè)”是由中文或英文文本組成的短語；“關(guān)系”是“前提”和“假設(shè)”之間的推理關(guān)系，推理關(guān)系包括：“蘊(yùn)含”、“矛盾”和“中立”。預(yù)處理為：對“前提”和“假設(shè)”字符串進(jìn)行分詞處理

str2matrix方法具體按如下步驟進(jìn)行：

步驟2.1:s是需要處理的字符串，l為該字符串的長度，令i＝0，生成n×lmax的零矩陣d；

步驟2.2:如果i小于等于l，執(zhí)行步驟2.3，否則執(zhí)行步驟2.5；

步驟2.3:在預(yù)訓(xùn)練好的字典中查找第i個單詞或詞語si是否存在，如果存在，將矩陣d的第i行替換成字符串s中第i個單詞或詞語si對應(yīng)的n維雙精度的詞向量，如果字典中不存在si對應(yīng)的n維雙精度的詞向量，則隨機(jī)初始化詞向量，并將將矩陣d的第i行替換成則隨機(jī)初始化詞向量；

步驟2.4:i加1，執(zhí)行步驟2.2；

步驟2.5:結(jié)束。

步驟3：計算“前提”和“假設(shè)”的距離關(guān)系矩陣dp和距離關(guān)系矩陣dh；

本步驟中距離關(guān)系矩陣dp和dh的計算方法如下：

距離關(guān)系矩陣dp為lmax×lmax的矩陣如下：

距離關(guān)系矩陣dh為lmax×lmax的矩陣如下：

其中d(x,y)為計算詞向量x與詞向量y距離的函數(shù)；表示“前提”矩陣m^p的第i行；表示“前提”矩陣m^h的第i行。

步驟4：生成“前提”和“假設(shè)”的聯(lián)合矩陣u^p和聯(lián)合矩陣矩陣u^h；

本步驟中“前提”和“假設(shè)”的聯(lián)合矩陣計算方法為：將基本矩陣和距離關(guān)系矩陣對應(yīng)行收尾相接的方式生成聯(lián)合矩陣。

步驟5：將“前提”和“假設(shè)”中的聯(lián)合矩陣分別送入深度學(xué)習(xí)模型中，生成m維雙精度的“前提”句向量v^p和“假設(shè)”句向量v^h；

本步驟中聯(lián)合矩陣的送入方式是將聯(lián)合矩陣的行向量逐個有序的送入深度學(xué)習(xí)模型中。

步驟6:將“前提”和“假設(shè)”的句向量按照句向量混合方法生成分類向量；

本步驟中的句向量混合方法具體實(shí)現(xiàn)方式如下：

計算v^ph1,v^ph2,v^ph3,v^ph4四個混合相量，并將其合并成最終的4m維的混合相量v^fin，混合相量的計算公式分別為：

v^fin＝[v^ph1v^ph2v^ph3v^ph4]

式中：vi^p為“前提”句向量v^p的第i個元素，vi^h為“假設(shè)”句向量v^h的第i個元素，i＝1,2,…,m。

步驟7：將分類向量送入分類器，分類器輸出“前提”和“假設(shè)”的關(guān)系。

實(shí)施例1

本實(shí)施例中，一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別算法，具體按如下步驟進(jìn)行：

獲取兩個文本，將其中一個文本作為“前提”，另一個文本作為“假設(shè)”：

前提：twowomenhavingdrinksandsmokingcigarettesatthebar.

假設(shè)：twowomenareatabar.

預(yù)設(shè)的最大語句長度為15。

步驟1：對“前提”、“假設(shè)”進(jìn)行預(yù)處理，生成“前提”字符串s^p＝[”two”,”women”,”having”,”drinks”,”and”,”smoking”,”cigarettes”,”at”,”the”,”bar”,”.”]和“假設(shè)”字符串s^h＝[”two”,”women”,”are”,”at”,”a”,”bar”,”.”]；

步驟2：將“前提”字符s^p和“假設(shè)”字符串s^h，采用str2matrix方法，生成n×lmax的“前提”基本矩陣m^p的和n×lmax的“假設(shè)”基本矩陣m^h；

其中wvword表示word的n維詞向量。

步驟3：計算“前提”和“假設(shè)”的距離關(guān)系矩陣dp和距離關(guān)系矩陣dh；

由于矩陣dp過長，橫向拆分成以上兩張圖片。

由于矩陣dh過長，橫向拆分成以上兩張圖片。

步驟4：生成“前提”和“假設(shè)”的聯(lián)合矩陣u^p和聯(lián)合矩陣矩陣u^h；

步驟5：將“前提”和“假設(shè)”中的聯(lián)合矩陣分別送入深度學(xué)習(xí)模型中，生成m維雙精度的“前提”句向量v^p和“假設(shè)”句向量v^h；

步驟6:將“前提”和“假設(shè)”的句向量按照句向量混合方法生成分類向量；

v^fin＝[v^ph1v^ph2v^ph3v^ph4]

步驟7：將分類向量送入分類器，分類器輸出“前提”和“假設(shè)”的關(guān)系。

以上所述的實(shí)施例只是本發(fā)明的一種較佳的方案，然其并非用以限制本發(fā)明。有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員，在不脫離本發(fā)明的精神和范圍的情況下，還可以做出各種變化和變型。因此凡采取等同替換或等效變換的方式所獲得的技術(shù)方案，均落在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉思陽;張森林;樊臻;劉妹琴
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：在組呼尋呼中指示終端調(diào)整發(fā)射功率的方法及裝置與流程
上一篇：MBMS業(yè)務(wù)的傳輸方法和裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度學(xué)習(xí)的文本蘊(yùn)含關(guān)系識別方法與流程