国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法與流程

      文檔序號(hào):11199192閱讀:1685來源:國知局
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法與流程

      本發(fā)明涉及深度學(xué)習(xí)與自然語言處理技術(shù),具體涉及一種基于卷及神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取的方法。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)的普及和發(fā)展,信息量正以指數(shù)規(guī)律飛速地增長(zhǎng),每天數(shù)以億計(jì)的文本數(shù)據(jù)在互聯(lián)網(wǎng)上不斷更新,這其中包括新聞、社交、政府網(wǎng)站數(shù)據(jù)。在這些數(shù)據(jù)當(dāng)中蘊(yùn)含著許多對(duì)人們有價(jià)值的信息,這些信息對(duì)人們的生產(chǎn)生活起著至關(guān)重要的作用。然而面對(duì)這些海量的互聯(lián)網(wǎng)數(shù)據(jù),單憑人力很難快速地從中獲取自己所需要的信息。為了應(yīng)對(duì)信息過載帶來的挑戰(zhàn),迫切需要一些自動(dòng)化的方法幫助人們從中迅速找到真正有用的信息。

      實(shí)體關(guān)系抽取研究正是在這種背景下產(chǎn)生的。實(shí)體關(guān)系抽取作為自然語言處理的一項(xiàng)經(jīng)典任務(wù),其主要任務(wù)是識(shí)別出文本中的實(shí)體并抽取實(shí)體之間的語義關(guān)系。實(shí)體關(guān)系抽取可以將無結(jié)構(gòu)化的文本信息轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并以數(shù)據(jù)庫的形式存儲(chǔ),一方面可以用于對(duì)文本的快速閱讀和理解,幫助人們更方便的獲取所需要的信息,另一方面可以用于深入地挖掘分析,對(duì)知識(shí)庫構(gòu)建、垂直搜索、自動(dòng)問答等自然語言處理相關(guān)領(lǐng)域起著非常重要的作用。其中,針對(duì)互聯(lián)網(wǎng)新聞中存在的企業(yè)實(shí)體關(guān)系的抽取是一項(xiàng)比較典型的實(shí)體關(guān)系抽取任務(wù),它對(duì)金融輿情、企業(yè)投資等方面具有重要作用。

      目前,大多數(shù)實(shí)體關(guān)系抽取的方法是基于監(jiān)督學(xué)習(xí)的方法,通常需要大量人工標(biāo)注的訓(xùn)練數(shù)據(jù),選取合適的特征后從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)關(guān)系對(duì)應(yīng)的抽取模式。該方法的缺點(diǎn)也很明顯,一是需要人工標(biāo)注訓(xùn)練數(shù)據(jù)集,十分的耗時(shí)耗力;二是依賴一些自然語言處理工具來提取特征,而這些工具往往存在大量錯(cuò)誤,這些錯(cuò)誤將會(huì)在關(guān)系抽取系統(tǒng)中不斷傳播放大,最終影響關(guān)系抽取的效果。



      技術(shù)實(shí)現(xiàn)要素:

      借助于詞向量和深層的神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)得到句子的分布式向量表示,該向量包含了文本的語義信息,可以作為關(guān)系抽取分類模型的輸入。為解決上述問題,本發(fā)明提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法,首先利用bootstrapping技術(shù)構(gòu)建企業(yè)關(guān)系語料庫,接著基于卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建句子的分布式表示,最后構(gòu)建關(guān)系分類模型并對(duì)網(wǎng)頁中存在的企業(yè)關(guān)系進(jìn)行抽取。具體技術(shù)方案如下:

      一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法,包括構(gòu)建關(guān)系語料庫階段、關(guān)系分類模型訓(xùn)練階段和網(wǎng)頁中企業(yè)實(shí)體關(guān)系抽取階段,其中,構(gòu)建關(guān)系語料庫階段,采用人工構(gòu)建初始種子關(guān)系對(duì)集合,然后借助于互聯(lián)網(wǎng)搜索引擎并利用bootstrapping技術(shù)迭代生成關(guān)系語料,最終形成關(guān)系語料庫;關(guān)系分類模型訓(xùn)練階段,結(jié)合詞向量與位置嵌入構(gòu)建句子的向量矩陣表示作為網(wǎng)絡(luò)的輸入,然后搭建卷積神經(jīng)網(wǎng)絡(luò)并利用反向傳播算法訓(xùn)練網(wǎng)絡(luò)得到關(guān)系分類模型;網(wǎng)頁中企業(yè)實(shí)體關(guān)系抽取階段,結(jié)合網(wǎng)頁正文提取和命名實(shí)體識(shí)別技術(shù)對(duì)網(wǎng)頁進(jìn)行預(yù)處理,然后對(duì)預(yù)處理過后的網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系抽取。

      進(jìn)一步的,人工構(gòu)建初始種子關(guān)系對(duì)包括如下步驟:

      s1、定義關(guān)系類型及整理對(duì)應(yīng)的關(guān)鍵詞列表;

      s2、選取初始種子企業(yè);

      s3、將關(guān)鍵詞列表和初始種子企業(yè)兩兩組合得到初始種子關(guān)系對(duì),并形成初始種子關(guān)系對(duì)集。

      進(jìn)一步的,選取若干上市企業(yè)名單作為初始種子企業(yè)。

      進(jìn)一步的,所述的借助于互聯(lián)網(wǎng)搜索引擎并利用bootstrapping技術(shù)迭代生成關(guān)系語料包括如下步驟:

      s1、將得到的初始種子關(guān)系對(duì)集合中的企業(yè)名和關(guān)系關(guān)鍵詞作為檢索關(guān)鍵詞

      keyw與keyw送入搜索引擎爬蟲;

      s2、持久化同時(shí)包含keyword1與keyword2的所有網(wǎng)頁;

      s3、對(duì)s2中所得到的網(wǎng)頁進(jìn)行預(yù)處理;

      s4、篩選并保留同時(shí)包含keyword1與keyword2的句子作為初始關(guān)系語料s;

      s5、根據(jù)集合s計(jì)算每一類關(guān)系的中心點(diǎn)ci;

      s6、對(duì)于集合s當(dāng)中的每個(gè)句子,逐個(gè)進(jìn)行命名實(shí)體識(shí)別,找出其中出現(xiàn)的另一個(gè)公司名,得到實(shí)體對(duì)<entity1,entity2>,并將entity2加入到種子企業(yè)中;

      s7、將s6得到的實(shí)體對(duì)送入搜索引擎爬蟲,得到候選語料集c;

      s8、針對(duì)候選語料c中的每一句子sc,計(jì)算其與每個(gè)類別中心點(diǎn)的距離di,將距離最近的中心點(diǎn)的類標(biāo)y作為句子sc的類別,并加入語料庫s中,更新ci;

      s9、判斷語料庫數(shù)量是否達(dá)到閾值,若是則結(jié)束,否則轉(zhuǎn)入s1。

      進(jìn)一步的,預(yù)處理包括正文提取和分句操作,其中,正文提取是指提取網(wǎng)頁的正文,去除網(wǎng)頁中其他不相關(guān)的部分;分句操作是指將網(wǎng)頁正文拆分成一個(gè)一個(gè)句子。

      進(jìn)一步的,結(jié)合詞向量與位置嵌入構(gòu)建句子的向量矩陣包括如下步驟:

      s1、利用word2vec訓(xùn)練得到每個(gè)詞的詞向量表示ai;

      s2、對(duì)于句子當(dāng)中的每個(gè)詞wi,計(jì)算其與兩個(gè)實(shí)體的相對(duì)距離di1,di2;

      s3、結(jié)合s1和s2中得到每個(gè)詞wi的語義信息與位置信息的組合表示xi={ai,di1,di2};

      s4、則一個(gè)長(zhǎng)度為n的句子則可以表示為:表示連接操作符,從而構(gòu)成由詞向量和位置嵌入構(gòu)成的句子向量矩陣n*(k+2),k為詞向量的維度,是固定值。

      進(jìn)一步的,搭建卷積神經(jīng)網(wǎng)絡(luò)并利用反向傳播算法訓(xùn)練網(wǎng)絡(luò)包括如下步驟:

      s1、將得到的句子向量矩陣作為輸入送入卷積神經(jīng)網(wǎng)絡(luò)中;

      s2、用一個(gè)濾波器進(jìn)行卷積操作,該濾波器將與一個(gè)窗口大小為h詞向量矩陣產(chǎn)生一個(gè)特征圖譜,其中,w表示濾波器,h*(k+2)表示濾波器的大??;

      s3、對(duì)特征圖譜使用max-overtime的池化操作,即取作為此濾波器下得到的特征;

      s4、使用多個(gè)濾波器來獲取多個(gè)不同的特征圖譜并做池化操作以得到相關(guān)特征;

      s5、對(duì)于給定一個(gè)樣本x,輸入到網(wǎng)絡(luò)中,與訓(xùn)練參數(shù)θ運(yùn)算將輸出一個(gè)向量o,它的第i維oi表示該句子屬于第i類的一個(gè)概率評(píng)分,其中,訓(xùn)練參數(shù)θ表示卷積神經(jīng)網(wǎng)絡(luò)中每一層的權(quán)重與偏置參數(shù);

      s6、為了獲得條件概率p(i|x,θ),我們?cè)陉P(guān)系類別之上做一個(gè)softmax操作:其中,x表示輸入樣本,m表示總的關(guān)系類別數(shù);

      s7、對(duì)于所有的訓(xùn)練樣本t:(xi,yi)得到訓(xùn)練參數(shù)θ的對(duì)數(shù)似然函數(shù)值:其中,t表示樣本總數(shù)也就是訓(xùn)練語料庫的大小,x表示輸入樣本,y表示輸入樣本x對(duì)應(yīng)的類標(biāo);

      s8、通過反向傳播算法來迭代更新θ:并最終得到關(guān)系分類模型。

      進(jìn)一步的,多個(gè)濾波器的窗口大小不完全一致。

      進(jìn)一步的,使用開源工具webcollector對(duì)網(wǎng)頁進(jìn)行正文提取,使用開源工具h(yuǎn)anlp對(duì)網(wǎng)頁中的句子進(jìn)行命名實(shí)體識(shí)別。

      進(jìn)一步的,所述的對(duì)預(yù)處理過后的網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系抽取的具體過程如下:

      s1、將網(wǎng)頁正文分句,以句號(hào)和分號(hào)作為分隔符;

      s2、篩選出包含兩個(gè)或兩個(gè)以上企業(yè)實(shí)體的句子集合q;

      s3、將q中的句子逐個(gè)送入關(guān)系分類模型中,得到該句子所包含的實(shí)體關(guān)系。

      有益效果:

      本發(fā)明使用了卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)實(shí)體關(guān)系的抽取,避免了過多依賴于人工選取特征,不僅可以避免人工特征的方法的不足(一般會(huì)存在兩點(diǎn)不足:一是所提特征需要借助一些自然語言處理工具,這些工具難免會(huì)存在誤差;二是難以選取合適的特征子集),還可以更加準(zhǔn)確更高效地從網(wǎng)頁中抽取出企業(yè)實(shí)體關(guān)系。

      此外,本發(fā)明還借助了bootstarpping思想以及搜索引擎來自動(dòng)構(gòu)建關(guān)系語料庫,避免了純手工標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn)。

      本發(fā)明是一種基于深度學(xué)習(xí)技術(shù)的關(guān)系抽取方法,可取得state-of-the-art(現(xiàn)有的最高水平)的效果。

      附圖說明

      圖1為基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法的流程圖;

      圖2為基于bootstrapping技術(shù)的構(gòu)建關(guān)系語料庫的流程圖;

      圖3為關(guān)系類型及對(duì)應(yīng)關(guān)鍵詞列表;

      圖4為構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系分類模型的示意圖;

      圖5為對(duì)網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系進(jìn)行抽取的流程圖。

      具體實(shí)施方式

      為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實(shí)施例并配合所附圖式說明如下。

      圖1為實(shí)施例中基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法的流程圖,如圖所示,該方法主要包括三個(gè)階段,分別是:基于bootstrapping技術(shù)構(gòu)建語料庫階段;基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建關(guān)系分類模型階段;針對(duì)網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系抽取階段。

      結(jié)合圖2所示,實(shí)施例中基于bootstrapping技術(shù)構(gòu)建語料庫的實(shí)施步驟如下:

      步驟0為基于bootstrapping技術(shù)構(gòu)建語料庫的起始狀態(tài);

      步驟1定義關(guān)系類型及整理定義關(guān)系類型所對(duì)應(yīng)的關(guān)鍵詞列表,其中,關(guān)系類型是指兩個(gè)實(shí)體之間存在的某一種關(guān)系的類型,如圖3所示,實(shí)施例中考慮的關(guān)系類型主要有4種:合作、投資、收購、競(jìng)爭(zhēng);

      步驟2選取若干上市企業(yè)名單作為初始種子企業(yè),當(dāng)然也可以選擇其它類別的企業(yè)作為初始種子企業(yè),實(shí)施例中取上市公司主要考慮上市公司比一般小公司的曝光度要高,更容易從互聯(lián)網(wǎng)中搜索到相關(guān)語料;

      步驟3將關(guān)系類型對(duì)應(yīng)的關(guān)鍵詞與種子企業(yè)名單進(jìn)行兩兩組合得到初始種子關(guān)系集s<e,r>={<entity,relation>},其中,entity和relation分別表示企業(yè)名和關(guān)系關(guān)鍵詞,例如<阿里巴巴,投資>;

      步驟4將初始種子關(guān)系集s<e,r>中企業(yè)名和關(guān)系關(guān)鍵詞作為檢索關(guān)鍵詞keyword1與keyword2送入搜索引擎爬蟲;

      步驟5持久化同時(shí)包含keyword1與keyword2的所有網(wǎng)頁;

      步驟6對(duì)步驟5所得到的網(wǎng)頁進(jìn)行正文提取、分句等預(yù)處理操作,預(yù)處理的主要目的有兩個(gè):一是提取網(wǎng)頁的正文,去除網(wǎng)頁中其他不相關(guān)的部分,例如廣告欄、標(biāo)題欄等;第二個(gè)目的分句是為了將網(wǎng)頁正文拆分成一個(gè)一個(gè)句子,因?yàn)楸疚乃鶎?shí)現(xiàn)的關(guān)系抽取是句子級(jí)別的,不是段落或者文檔級(jí)別;

      步驟7為篩選并保留同時(shí)包含keyword1與keyword2的句子作為初始關(guān)系語料集s;

      步驟8根據(jù)初始關(guān)系語料集s計(jì)算每一類關(guān)系的中心點(diǎn)ci;

      步驟9對(duì)于初始關(guān)系語料集s當(dāng)中的每個(gè)句子,逐個(gè)進(jìn)行命名實(shí)體識(shí)別,找出其中出現(xiàn)的另一個(gè)公司名,得到實(shí)體對(duì)<entity1,entity2>,并將entity2加入到種子企業(yè)中;

      步驟10是將上一步得到的實(shí)體對(duì)送入搜索引擎爬蟲,得到候選語料集c;

      步驟11是針對(duì)候選語料集c中的每一句子sc,計(jì)算其與每個(gè)類別中心點(diǎn)ci的距離di,將距離最近的中心點(diǎn)ci的類標(biāo)y作為句子sc的類別,并加入初始關(guān)系語料集s中,同時(shí)更新ci;

      步驟12是判斷語料庫數(shù)量(由多個(gè)候選語料集組成)是否達(dá)到閾值,若是則進(jìn)入步驟13,否則進(jìn)入步驟3;

      步驟13是構(gòu)建關(guān)系語料庫的結(jié)束狀態(tài)。

      結(jié)合圖4所示,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系分類模型主要包括訓(xùn)練出句子向量矩陣、卷積操作、池化操作以及softmax全連接輸出類別概率,這也對(duì)應(yīng)整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),主要分為四層:輸入層、卷積層、池化層、輸出層,輸入層由句子向量矩陣構(gòu)成,卷積層負(fù)責(zé)采樣操作得到一個(gè)特征圖譜,池化層是對(duì)特征圖譜進(jìn)行一個(gè)取最大值操作,輸出層是輸出句子所屬類別的一個(gè)概率分布

      具體步驟為:

      步驟1為起始步驟;

      步驟2是利用word2vec訓(xùn)練得到輸入句子當(dāng)中的每個(gè)詞wi的詞向量表示αi,得到每個(gè)詞wi的語義,其中,word2vec是google開源的一個(gè)訓(xùn)練詞向量的工具,它具有準(zhǔn)確高效的特點(diǎn);

      步驟3對(duì)于句子當(dāng)中的每個(gè)詞wi,計(jì)算其與兩個(gè)實(shí)體的相對(duì)距離di1,di2,得到每個(gè)詞wi的位置信息;

      步驟4結(jié)合步驟2和3得到每個(gè)詞wi的語義信息(詞向量包含詞語的語義信息)與位置信息的組合表示xi={ai,di1,di2};

      步驟5對(duì)于一個(gè)長(zhǎng)度為n的句子則可以表示為:表示連接操作符;從而構(gòu)成由詞向量和位置嵌入構(gòu)成的句子向量矩陣n*(k+2),k為詞向量的維度,是固定值。

      步驟6將步驟5得到的句子向量矩陣作為輸入送入卷積神經(jīng)網(wǎng)絡(luò)中;

      步驟7是用一個(gè)濾波器進(jìn)行卷積操作,這個(gè)濾波器將與一個(gè)窗口大小為h詞向量矩陣產(chǎn)生一個(gè)特征圖譜;其中k為詞向量維度;濾波器就是h*(k+2)大小的二維矩陣,即其中,w表示濾波器,h*(k+2)表示濾波器的大小。

      步驟8是對(duì)步驟7得到的特征圖譜使用一個(gè)max-overtime的池化操作,即,取特征圖譜中最大的一個(gè)特征的池化操作,實(shí)施例中取作為此濾波器下得到的特征;

      步驟9使用多個(gè)濾波器(具有不同的窗口大小)來獲取多個(gè)不同的特征圖譜,并做池化操作得到相關(guān)特征;值得注意的是:窗口寬度是一樣的,高度不一樣,以使得采樣多樣化,增加模型的泛化能力;

      步驟10是對(duì)于給定一個(gè)樣本x,即已經(jīng)標(biāo)注過實(shí)體的句子,輸入到卷積神經(jīng)網(wǎng)絡(luò)中,與訓(xùn)練參數(shù)θ運(yùn)算將輸出一個(gè)向量o,它的第i維oi表示該句子屬于第i類的一個(gè)概率評(píng)分,其中,訓(xùn)練參數(shù)θ是指卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)重與偏置參數(shù);

      步驟11為了獲得條件概率p(i|x,θ),即在樣本x在參數(shù)θ條件下屬于第i個(gè)類別的概率,在關(guān)系類別之上做一個(gè)softmax操作:其中,x表示輸入樣本,θ表示整個(gè)網(wǎng)絡(luò)的參數(shù)包括每一層的權(quán)重與偏置,m表示總的關(guān)系類別數(shù);

      步驟12對(duì)于所有的訓(xùn)練樣本t:(xi,yi),可以得到各訓(xùn)練參數(shù)θ的對(duì)數(shù)似然函數(shù)值:其中,t表示樣本總數(shù)也就是訓(xùn)練語料庫的大小,x表示輸入樣本,y表示輸入樣本x對(duì)應(yīng)的類標(biāo);

      步驟13是通過反向傳播算法來迭代更新θ:并最終得到關(guān)系分類模型;

      步驟14為構(gòu)建關(guān)系分類模型的結(jié)束狀態(tài)。

      結(jié)合圖5所示,對(duì)網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系進(jìn)行抽取的流程如下:

      步驟1為起始狀態(tài);

      步驟2是持久化網(wǎng)頁到本地;

      步驟3是借助webcollector開源工具對(duì)網(wǎng)頁進(jìn)行正文提取,其中,webcollector開源工具具有識(shí)別準(zhǔn)確率高、速度快的特點(diǎn);

      步驟4是將網(wǎng)頁正文分句,主要以句號(hào)和分號(hào)作為分隔符;

      步驟5是借助hanlp開源工具對(duì)句子進(jìn)行命名實(shí)體標(biāo)注,其中,hanlp開源工具識(shí)別準(zhǔn)確率更高,功能更完備;

      步驟6是篩選出那些包含兩個(gè)或兩個(gè)以上企業(yè)實(shí)體的句子集合q;

      步驟7將q中的句子逐個(gè)送入關(guān)系分類模型中;

      步驟8得到該句子所包含的實(shí)體關(guān)系類型;

      步驟9結(jié)束。

      綜上所述,本發(fā)明就是通過卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建包含企業(yè)實(shí)體關(guān)系句子的分類模型,借助詞向量和位置嵌入來構(gòu)建帶有語義和位置信息的句子向量表示,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。這樣做不但避免過多依靠人工特征的方法,還可以最大限度地減少一些自然語言處理工具所帶來的誤差,從而提高分類模型的準(zhǔn)確性,具有良好的實(shí)用性。

      雖然本發(fā)明已以較佳實(shí)施例揭露如上,然其并非用以限定本發(fā)明。本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識(shí)者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動(dòng)與潤(rùn)飾。因此,本發(fā)明的保護(hù)范圍當(dāng)視權(quán)利要求書所界定者為準(zhǔn)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1