国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法

      文檔序號:40282554發(fā)布日期:2024-12-11 13:23閱讀:14來源:國知局
      一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法

      本發(fā)明涉及計算機自然語言處理,尤其涉及一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法。


      背景技術(shù):

      1、隨著數(shù)字化時代的到來,大數(shù)據(jù)、人工智能和自然語言處理等領(lǐng)域快速發(fā)展,世界范圍內(nèi)的信息流量呈現(xiàn)出前所未有的爆炸性增長。這一潮流不僅來自互聯(lián)網(wǎng),還包括社交媒體、物聯(lián)網(wǎng)設(shè)備、科學研究、醫(yī)療記錄等各個領(lǐng)域。眾多數(shù)據(jù)源產(chǎn)生了大量非結(jié)構(gòu)化數(shù)據(jù),其中包括文本、圖像、音頻、視頻等,這些數(shù)據(jù)通常具有多樣性、復雜性和高度動態(tài)性,如何有效組織和高效利用這些數(shù)據(jù)是一項巨大的挑戰(zhàn)。針對以上挑戰(zhàn),谷歌提出知識圖譜技術(shù),將數(shù)據(jù)表達為知識化的大規(guī)模語義網(wǎng)絡(luò),是目前用于多源異構(gòu)數(shù)據(jù)融合的最有效手段之一。

      2、實體關(guān)系抽取是自然語言處理領(lǐng)域的一項重要任務(wù),也是構(gòu)建知識圖譜的關(guān)鍵,該任務(wù)旨在從非結(jié)構(gòu)化文本中識別實體及其間的語義關(guān)系并以結(jié)構(gòu)化形式表達,例如:通常采用實體關(guān)系三元組形式(頭實體,關(guān)系,尾實體)。

      3、現(xiàn)階段,重疊關(guān)系三元組抽取吸引了越來越多研究人員的關(guān)注,并成為當前研究的熱點。它旨在從給定的句子中抽取出多個且相互間共享實體的關(guān)系三元組。按照實體重疊程度不同,可劃分為標準類(normal)、單實體重疊(single?entity?overlap,seo)、實體對重疊(entity?pair?overlap,epo)以及頭尾實體嵌套重疊(subject?object?overlap,soo)四種類型,如圖1所示。對于關(guān)系三元組的重疊情況,其在大規(guī)模的自然語言文本中十分常見,并且重疊關(guān)系三元組抽取相比經(jīng)典關(guān)系三元組抽取更加具備挑戰(zhàn)性。

      4、盡管已有較多工作投入重疊實體關(guān)系三元組抽取,但當前重疊實體關(guān)系三元組抽取任務(wù)仍存在以下問題:

      5、(1)在基于標注策略的抽取模型中,主流的抽取方法包含頭實體優(yōu)先提取、關(guān)系優(yōu)先提取和實體對優(yōu)先提取,但這些方法大多數(shù)都采取單向抽取模式,即從一個方向進行抽取工作,這會導致一個問題,如果抽取任務(wù)的第一個步驟抽取失敗,則整個任務(wù)都會失敗。

      6、(2)對于實體對優(yōu)先提取的模型,其性能受到實體對識別不完備不準確的嚴重影響,導致模型整體性能下降,并且其在關(guān)系抽取階段未能充分利用句子中的上下文信息。

      7、因此,如何更好地從海量的非結(jié)構(gòu)化文本中抽取出有價值的信息并高效地解決實體關(guān)系抽取中的重疊問題,引起了眾多研究者的關(guān)注,并且隨著深度學習技術(shù)的發(fā)展,更加促進了這一領(lǐng)域的快速發(fā)展。


      技術(shù)實現(xiàn)思路

      1、針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法,該方法通過構(gòu)建聯(lián)合抽取模型完成抽取工作,模型主要包含四個模塊:編碼器模塊,基于雙向標記的實體對識別模塊,全局檢測模塊和基于實體注意力的關(guān)系抽取模塊。首先編碼器模塊對輸入句子進行編碼,并獲得對于不同任務(wù)的特殊表示;其次基于雙向標記的實體對識別模塊會識別所有存在潛在關(guān)系的實體對;然后全局檢測模塊會對置信度較低的實體對進行過濾;最后基于實體注意力的關(guān)系抽取模塊會抽取出實體對之間的關(guān)系,實現(xiàn)對實體關(guān)系的聯(lián)合抽取,并高效解決重疊問題。

      2、為實現(xiàn)上述目的,采用的技術(shù)方案為:

      3、一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法,步驟如下:

      4、對輸入句子進行編碼,并獲得對于不同任務(wù)的特殊表示;

      5、構(gòu)建基于雙向標記的實體對識別模塊與全局檢測模塊,基于雙向標記的實體對識別模塊會從頭實體-尾實體與尾實體-頭實體方向抽取所有存在潛在關(guān)系的實體對,保證實體對抽取的完備性;全局檢測模型會對抽取出的實體對進行判斷,過濾置信度低的實體對,保證實體對抽取的準確性;

      6、構(gòu)建基于實體注意力的關(guān)系抽取模塊,關(guān)系抽取模塊通過實體注意力網(wǎng)絡(luò),充分融合實體與上下文信息完成頭尾實體間關(guān)系的抽??;

      7、設(shè)定基于雙向標記的實體對識別模塊,全局檢測模塊和基于實體注意力的關(guān)系抽取模塊的損失函數(shù),將三個模塊的損失函數(shù)聯(lián)合,同時為了增強模型的泛化能力,在訓練過程中采用實體對負采樣策略,完成對實體關(guān)系聯(lián)合抽取模型的訓練和測試,并根據(jù)測試結(jié)果對實體關(guān)系聯(lián)合抽取模型進行更新。

      8、所述對輸入句子進行編碼并獲得對于不同任務(wù)的特殊表示,具體包括以下步驟:

      9、s1.1:對數(shù)據(jù)集中的句子使用bert分詞器進行分詞,并得到句子的初始化編碼表示x={x1,x2,…,xl}。

      10、s1.2:對于句子的初始化編碼表示x={x1,x2,…,xl},使用預訓練模型bert獲得句中各詞xi對應(yīng)的語義特征表示如式(1)所示:

      11、{h1,h2,…,hl}=bert{x1,x2,…,xl}??(1)

      12、s1.3:使用預訓練模型bert得到句子的語義特征表示后,通過四個線性層對所編碼的語義特征表示進一步抽象以適用于不同任務(wù)需要。具體地,將四個上下文特征的第i個詞的語義表示分別記作和計算過程如公式(2)~(5)所示:

      13、

      14、其中分別表示全局檢測模塊特定任務(wù)表示、實體對識別模塊中對于頭實體識別的特定表示、實體對識別模塊中對于尾實體識別的特定表示、關(guān)系抽取模塊特定任務(wù)表示的權(quán)重矩陣,分別表示對應(yīng)的偏置向量。

      15、所述構(gòu)建基于雙向標記的實體對識別模塊與全局檢測模塊,具體包括以下步驟:

      16、s2.1:基于雙向標記的實體對識別模塊先從頭實體-尾實體與尾實體-頭實體兩個方向分別識別頭實體與尾實體,再標記其對應(yīng)的尾實體與頭實體,最后組成實體對。這種工作模式可以自然地解決共享實體的重疊問題,即:seo和soo,并保證了實體對識別的完備性。由于兩個方向?qū)嶓w對識別在內(nèi)部結(jié)構(gòu)和工作原理上相同,具體介紹中以先識別出頭實體再標記對應(yīng)的尾實體為代表進行展開;

      17、s2.2:全局檢測模塊根據(jù)s2.1中實體對的識別情況,利用全局檢測矩陣,對置信度低的實體對進行過濾,以保證實體對識別的準確性。

      18、所述s2.1具體包括以下步驟:

      19、s2.1.1:對于句子中的頭實體標記器,采用二元標記策略,用“1”標記頭實體的起和止位置,其它標記為“0”;

      20、頭實體標記器的目的是從輸入的句子中識別出所有頭實體,句中各詞的標記預測概率計算如公式(6)~(7)所示:

      21、

      22、其中,和分別表示第i個詞作為頭實體的起始位或終止位的概率。表示頭實體開始位置標記器或頭實體結(jié)束位置標記器的權(quán)重矩陣,為對應(yīng)的偏置,σ表示激活函數(shù)。

      23、s2.1.2:在得到頭實體標記器的標記結(jié)果后,尾實體標記器以頭實體為前提標記對應(yīng)的尾實體,具體地,對于給定的某一頭實體,首先采用平均池化操作對頭實體包含各詞對應(yīng)的語義表示進行特征提取,得到頭實體向量表示如公式(8)所示;

      24、

      25、其中代表第k個頭實體所包含各詞對應(yīng)的語義表示,avgpool表示平均池化操作。

      26、s2.1.3:將頭實體向量表示通過哈達瑪積(hadamard)與句子融合處理,在融合處理基礎(chǔ)上同樣采用二元標記策略進行尾實體識別,如公式(9)(10)所示:

      27、

      28、其中和分別表示當前頭實體下第i個詞作為對應(yīng)尾實體起始位和終止位的預測概率。表示哈達瑪積表示頭實體開始位置標記器或頭實體結(jié)束位置標記器的權(quán)重矩陣,表示對應(yīng)的偏置,σ表示激活函數(shù)。

      29、s2.1.4:將所有抽取的頭實體與其對應(yīng)的尾實體組合,形成存在潛在關(guān)系的實體對。

      30、所述s2.2具體包括以下步驟:

      31、s2.2.1:得到句子中所有存在潛在關(guān)系的實體對后,為了保證實體對識別的準確性,使用全局檢測矩陣消除錯誤的實體對,詳細過程為:對于所有實體對,檢查全局檢測矩陣中對應(yīng)于各實體對分數(shù)值,如果分數(shù)值超過設(shè)定閾值,則保留該實體對,否則將其濾除;

      32、s2.2.2:如圖3中的綠色矩陣所示,給定含有n個詞的句子,全局檢測矩陣的形狀為rn×n,該矩陣的每個元素對應(yīng)于各實體對中頭實體和尾實體的起始位置,元素的值代表實體對的置信度大小,值越大,則對應(yīng)實體對的置信度越高。全局檢測矩陣中各元素值的計算公式如(11)所示:

      33、

      34、其中,是輸入句子中頭實體和尾實體對的第i個標記和第j個標記的編碼表示。表示全局檢測任務(wù)的權(quán)重矩陣,bd∈r表示對應(yīng)的偏置,σ表示激活函數(shù)。

      35、s2.2.3:通過全局檢測矩陣過濾低置信度的實體對,完成實體對的篩選。

      36、所述構(gòu)建基于實體注意力的關(guān)系抽取模塊,具體包括以下步驟:

      37、s3.1:根據(jù)s2.2中保留的實體對,分別對其頭實體和尾實體所包含詞的語義表示進行平均池化操作,以獲得頭實體和尾實體的向量表示和公式描述如(12)(13)所示:

      38、

      39、其中,是第k個頭實體或尾實體所包含各詞的語義表示,avgpool表示平均池化操作。

      40、s3.2:得到頭實體和尾實體的向量表示后,將句子作為全局信息對頭實體和尾實體分別進行增強,采用注意力機制分別計算句中第i個詞與實體的相關(guān)性大小如式(14)所示:

      41、

      42、其中,表示權(quán)重矩陣,vt表示的轉(zhuǎn)置。

      43、s3.3:通過softmax對句子中各詞的重要度進行歸一化操作,得到句子對應(yīng)的實體對注意力權(quán)重α={α1,α2,…,αn},其中,第i個詞的注意力權(quán)重計算如式(15)所示:

      44、

      45、s3.4:使用s1.3中編碼層的輸出hr與注意力權(quán)重相乘,分別計算得到關(guān)于頭實體與尾實體的句子向量表示和如公式(16)所示:

      46、

      47、s3.5:將頭實體和尾實體的向量表示形式分別與其對應(yīng)的句子表示拼接,得到增強后的實體表示,如公式(17)(18)所示:

      48、

      49、其中,concat表示串聯(lián)操作。

      50、s3.6:使用add&norm層對每個向量做標準化處理,并且有效防止梯度消失,如公式(19)所示:

      51、

      52、s3.7:在s3.6得到實體對的語義表示mk后,以多標簽分類方式完成實體對間語義關(guān)系的預測,這種分類方式可以處理實體對具有多個語義關(guān)系的情況(epo),第i種關(guān)系的預測概率可通過公式(20)計算得到;

      53、

      54、其中,是特定于關(guān)系i的標記器的權(quán)重矩陣,表示對應(yīng)的偏置,σ表示激活函數(shù)。

      55、所述對實體關(guān)系聯(lián)合抽取模型進行更新,具體包括以下步驟:

      56、s4.1:基于雙向標記的實體對識別模塊的損失包含兩個部分,分別為頭實體到尾實體抽取方向的損失與尾實體到頭實體抽取方向的損失,頭實體到尾實體方向的損失定義如式(21)(22):

      57、

      58、其中,l是輸入句子中的單詞個數(shù),分別表示頭實體開始和結(jié)束位置、尾實體開始和結(jié)束位置的預測概率,是分別表示頭實體開始和結(jié)束位置、尾實體開始和結(jié)束位置的真實值標簽,bce(·)表示二元交叉熵損失。

      59、s4.2:與s4.1所述損失定義相同,尾實體到頭實體方向上也有兩個損失,分別記為ls2和lo2,計算公式與(21)(22)相似;

      60、s4.3:對于全局檢測模塊,其損失函數(shù)如下:

      61、

      62、其中,l是輸入句子中的單詞個數(shù),pi,j表示全局檢測矩陣中對于輸入句子中第i個單詞和第j個單詞作為頭實體開始位置和尾實體開始位置的預測概率,yi,j為其對應(yīng)的真實值標簽,bce(·)表示二元交叉熵損失。

      63、s4.4:對于基于實體注意力的關(guān)系抽取模塊,其損失函數(shù)如下:

      64、

      65、其中,r是預定義的關(guān)系集合,|r|是關(guān)系類型的總數(shù),表示第i種關(guān)系的預測概率,是其對應(yīng)的真實值標簽,bce(·)表示二元交叉熵損失。

      66、s4.5:采用聯(lián)合損失函數(shù)的方式計算總損失值l=ls1+lo1+ls2+lo2+lg+lr;

      67、s4.6:為提升模型的負例實體對判別能力,設(shè)計并采用了實體對負采樣策略。在訓練過程中,負采樣策略用于在每個句子中生成錯誤的實體對,每個真實三元組中的正確頭實體或尾實體被替換為其他不正確的頭實體或尾實體,簡單的示例如表1所示:

      68、表1負采樣策略

      69、

      70、s4.7:利用測試集對基于全局檢測和雙向標記的重疊關(guān)系三元組抽取模型進行測試,記錄模型的準確率、召回率和f1值,作為檢測模型效果的評價指標,并加以保存;

      71、s4.8:通過修改超參數(shù)對基于全局檢測和雙向標記的重疊關(guān)系三元組抽取模型重復測試,保存測試結(jié)果f1值最高的超參數(shù)作為模型最終超參數(shù);所述超參數(shù)包括學習率、迭代次數(shù);

      72、s4.9:對基于全局檢測和雙向標記的重疊關(guān)系三元組抽取模型結(jié)果進行分析,通過設(shè)定的f1值驗證模型的有效性。

      73、本發(fā)明的有益效果:

      74、1、本發(fā)明提出的一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法,通過雙向標記策略與全局檢測模塊,保證了實體對識別的完備性與準確性。

      75、2、本發(fā)明提出的一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法,通過基于實體注意力的關(guān)系抽取模塊,充分地利用了實體表示信息與句子的上下文信息,因此可以準確的識別實體間的語義關(guān)系。

      76、3.、本發(fā)明提出的一種基于全局檢測和雙向標記的重疊關(guān)系三元組抽取方法,訓練階段所設(shè)計的實體對負采樣策略可以提升模型的泛化性能,同時該模型可以高效處理關(guān)系三元組重疊問題。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1