国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法

      文檔序號:10594060閱讀:358來源:國知局
      一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法
      【專利摘要】本發(fā)明涉及自然語言處理領(lǐng)域,特別涉及一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法,本發(fā)明通過現(xiàn)有的企業(yè)名稱數(shù)據(jù)自動標注樣本來訓練雙向遞歸神經(jīng)網(wǎng)絡(luò),通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的學習自動識別待處理文本中的企業(yè)名稱,并將不屬于現(xiàn)有企業(yè)名稱的新企業(yè)名稱提取出來,本發(fā)明通過對文本的基本元素,比如字、詞、標點符號等進行特征的自動學習,克服了傳統(tǒng)方式中需要手動設(shè)置特征的缺陷;不僅如此,本發(fā)明應用了雙向傳播的RNN使得待識別的自然語言序列的分類判斷結(jié)果依賴了上下文信息,提取和判斷的準備率更高,本發(fā)明方法通過已有數(shù)據(jù)特點來發(fā)現(xiàn)新的企業(yè)實體名稱,在大數(shù)據(jù)分析領(lǐng)域特別是以企業(yè)為分析主體的數(shù)據(jù)分析領(lǐng)域中具有重要的應用價值。
      【專利說明】
      -種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及自然語言處理領(lǐng)域,特別設(shè)及一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名 稱發(fā)現(xiàn)方法。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了大量的、公開的網(wǎng)頁數(shù)據(jù),也因此催發(fā)了各種基于 大數(shù)據(jù)技術(shù)的新興產(chǎn)業(yè),比如互聯(lián)網(wǎng)醫(yī)療、互聯(lián)網(wǎng)教育、企業(yè)或者個人征信等。運些互聯(lián)網(wǎng) 產(chǎn)業(yè)的興起于繁榮離不開大量的信息數(shù)據(jù)分析,而信息分析的價值在于準確和敏銳,敏銳 的分析要求及時快速的發(fā)現(xiàn)新的信息;但是直接從網(wǎng)頁上獲取到數(shù)據(jù)大部分都是非結(jié)構(gòu)化 的,為了使用運些數(shù)據(jù),數(shù)據(jù)清洗工作成了各大公司耗費時間精力最多的地方。而數(shù)據(jù)清洗 當中特定信息提取,特別是命名實體的提取又是經(jīng)常發(fā)生的事情,比如做企業(yè)征信,最常見 的任務就是從大篇幅文本當中提取公司的名字。
      [0003] 除了常見的按照"省市+關(guān)鍵字+行業(yè)+組織形式"的規(guī)則來命名之外,還存在大量 的例外,比如公司名沒有使用省市作為開頭,又或者在非正式文本里,公司名可能W簡寫、 縮寫的方式出現(xiàn),運直接導致了使用傳統(tǒng)的方式來進行的信息解析的召回率不高。此外隨 著市場經(jīng)濟的繁榮,新增加的企業(yè)主體不斷出現(xiàn),新的市場主體的也會隨之出現(xiàn)在各種各 樣的網(wǎng)絡(luò)數(shù)據(jù)或媒體新聞中,從海量的網(wǎng)頁資訊中快速準確的發(fā)現(xiàn)和提取出新的機構(gòu)名 稱,對于相關(guān)問題分析的及時性具有特別重要的意義。
      [0004] 傳統(tǒng)的自然語言處理方法使用條件隨機場(CRF)對文本進行序列建模,進行文本 分析識別和發(fā)現(xiàn)公司名。使用條件隨機場,首先需要根據(jù)待識別實體的特點來設(shè)計構(gòu)建特 征模板,特征模板包括指定窗口大小上下文的一階詞或者多階詞組,詞的前綴、后綴,詞性 標注等狀態(tài)特征;特征模板的構(gòu)造非常耗時耗力,識別結(jié)果對特征模板的依賴程度極大,而 手動設(shè)置的特征模板往往僅依據(jù)部分樣本的特點,通用性差;而且通常只能用到局部的上 下文信息,各個特征模板的使用也是相互獨立的,預測不能依賴更長的歷史狀態(tài)信息,也無 法利用更長未來的信息反饋來糾正可能的歷史錯誤;預測過程費時費力,預測結(jié)果難W實 現(xiàn)全局最優(yōu)。
      [0005] 為了提升信息分析的敏銳性,研究一套基于自動化學習的方法來發(fā)現(xiàn)新的企業(yè)名 稱流程是必須的。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種基于雙向遞歸神 經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法。利用已有的企業(yè)名稱數(shù)據(jù)標注樣本來訓練所述雙向遞歸神 經(jīng)網(wǎng)絡(luò),通過遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主體名稱進行預測,發(fā)現(xiàn)待處理文本中的企 業(yè)名稱,并進一步提取出新的企業(yè)名稱。本發(fā)明使用大量的已有數(shù)據(jù)來自動標注訓練樣本, 極大的節(jié)省了神經(jīng)網(wǎng)絡(luò)使用過程中手動標注樣本的時間成本,使得神經(jīng)網(wǎng)絡(luò)的使用過程更 加簡化。不僅如此通過雙向遞歸神經(jīng)網(wǎng)絡(luò)預測企業(yè)主體名稱時既依賴了前文信息又依賴了 后文信息,預測的結(jié)果實現(xiàn)了全局優(yōu)化,識別的可靠性更高;且無需手動設(shè)置特征模板,節(jié) 省人力且通用性更好,可W在各種類型的文本中發(fā)現(xiàn)并提取新的企業(yè)名稱,為相關(guān)信息的 及時分析提供技術(shù)支撐。
      [0007]為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了 W下技術(shù)方案:
      [000引一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法,通過現(xiàn)有的企業(yè)名稱數(shù)據(jù)自 動標注樣本來訓練雙向遞歸神經(jīng)網(wǎng)絡(luò),通過所述雙向遞歸神經(jīng)網(wǎng)絡(luò)自動識別出待處理文本 中的企業(yè)名稱,并將其中新企業(yè)名稱提取出來。
      [0009] 本發(fā)明方法包含W下實現(xiàn)步驟:
      [0010] (1)使用現(xiàn)有企業(yè)名稱列表數(shù)據(jù)來自動標注訓練樣本中的企業(yè)名稱,并將企業(yè)名 稱分段標記為:開始部分、中間部分、結(jié)束部分,將企業(yè)主體名稱W外的文字標記為無關(guān)部 分;
      [0011] (2)將經(jīng)過人工標記的訓練樣本中的文字序列,先正向再反向輸入所雙向述遞歸 神經(jīng)網(wǎng)絡(luò)中,來訓練所述雙向遞歸神經(jīng)網(wǎng)絡(luò),所述雙向遞歸神經(jīng)網(wǎng)絡(luò)采用W下向前算法公 式:
      [0012]
      [0013]
      [0014]
      [0015]
      [0016]
      [0017]
      [0018] I為向量化的字或者詞的維度,H為隱含層的神經(jīng)元個數(shù),K是輸出層神經(jīng)元的個 數(shù),其中為正向輸入(文字序列從頭至尾正向輸入所述神經(jīng)網(wǎng)絡(luò))時t時刻所述雙向遞歸 神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入,0;;為反向輸入(文字序列從尾至頭反向輸入所述神經(jīng)網(wǎng) 絡(luò))時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入,1?為正向輸入時t時刻隱含層 神經(jīng)元的輸出,?為反向輸入時t時刻隱含層神經(jīng)元的輸出,0〇為隱含層神經(jīng)元的非線性 激勵函數(shù),幻;為(先正向再反向輸入H時刻輸出層神經(jīng)元的輸入,>,;.為t時刻輸出層神經(jīng)元 的輸出,>i為一個概率值,表示第k個神經(jīng)元的輸出值相對于K個神經(jīng)元輸出值總和的比 值,取值最大的神經(jīng)元對應的分類為t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)預測的對應字或詞的 最終分類。
      [0019] 具體的,^和^+i是各個維度值均為O的向量,T為輸入序列的長度。
      [0020] (3)將待分析文本中的文字序列輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)對輸入的文字序列進行分類,將分類結(jié)果中相鄰的屬于企業(yè)名稱部分的序列 所對應的文字作為企業(yè)名稱整體提取出來。
      [0021] (4)將所述雙向遞歸神經(jīng)網(wǎng)絡(luò)識別出來的企業(yè)名稱與現(xiàn)有企業(yè)列表數(shù)據(jù)對比,將 不屬于現(xiàn)有企業(yè)名稱的作為新的企業(yè)名稱提取出來。
      [0022] 具體的,本發(fā)明方法包含對待處理文本進行分詞處理的步驟,所述待處理文本包 括標注文本和待分析文本。將待處理文本適當分詞之后形成對應的文字序列,為后續(xù)處理 提供便利。
      [0023] 進一步的,所述步驟(1)根據(jù)分詞處理的結(jié)果,對需要標注的文本中的文字序列進 行標注,將其中的企業(yè)名稱根據(jù)分詞結(jié)果分段標注為:開始部分、中間部分和結(jié)束部分,將 其他的文字序列標注為無關(guān)部分。
      [0024] 進一步的,本發(fā)明方法中通過構(gòu)建詞典映射表來實現(xiàn)待處理文本序列中字或者詞 的向量化。
      [0025] 進一步的,在標注文本中選取35%的樣本作為開發(fā)樣本,65%的樣本為訓練樣本。 在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓練過程中僅保留在開發(fā)集上識別準確率最高的模型。
      [0026] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的 新企業(yè)名稱發(fā)現(xiàn)方法,利用已有的企業(yè)名稱數(shù)據(jù)標注樣本來訓練所述雙向遞歸神經(jīng)網(wǎng)絡(luò), 通過遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主體名稱進行預測,發(fā)現(xiàn)待處理文本中的企業(yè)名稱, 并進一步提取出新的企業(yè)名稱。不僅如此,本發(fā)明方法還利用利用雙向遞歸神經(jīng)網(wǎng)絡(luò)來對 文本中的企業(yè)主體名稱進行預測,本發(fā)明方法在預測企業(yè)名稱時,在一次向前算法中先將 文本序列從頭至尾依次正向輸入所述遞歸神經(jīng)網(wǎng)絡(luò)中,再從尾至頭反向輸入到所述遞歸神 經(jīng)網(wǎng)絡(luò)中;在正向和反向輸入的過程中各時刻雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包括上一時 刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號。運樣在預測企業(yè)主體名稱時既依賴了前文信息又依賴了后文 信息,預測的結(jié)果實現(xiàn)了全局優(yōu)化,識別的可靠性更高。而且通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理 方式,無需手動設(shè)置特征模板,節(jié)省人力且通用性更好,可W在各種類型的文本中發(fā)現(xiàn)并提 取企業(yè)名稱,識別的召回率較傳統(tǒng)基于規(guī)則的處理方法顯著提高。本發(fā)明在發(fā)現(xiàn)企業(yè)名稱 的基礎(chǔ)上,對比現(xiàn)有企業(yè)名稱數(shù)據(jù)庫,將不屬于現(xiàn)有數(shù)據(jù)的企業(yè)名稱確定為新發(fā)現(xiàn)的企業(yè) 名稱,添加到企業(yè)名稱數(shù)據(jù)庫中,利用本發(fā)明方法在海量互聯(lián)網(wǎng)數(shù)據(jù)信息中快速的發(fā)現(xiàn)新 的企業(yè)名稱,為相關(guān)信息的及時捕捉提供了技術(shù)支撐。
      【附圖說明】:
      [0027] 圖1為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法的實現(xiàn)過程示意圖。
      [0028] 圖2為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法的實現(xiàn)信號流程示意圖。
      [0029] 圖3為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法實施例1的實現(xiàn)信號流程 示意圖。
      [0030] 應該明白本發(fā)明說明書附圖僅為示意性的,不代表真實的實施方式。
      【具體實施方式】
      [0031] 下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進一步的詳細描述。但不應將此理解 為本發(fā)明上述主題的范圍僅限于W下的實施例,凡基于本
      【發(fā)明內(nèi)容】
      所實現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
      [0032] 本發(fā)明提供一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法,利用已有的企業(yè) 名稱數(shù)據(jù)標注樣本來訓練所述雙向遞歸神經(jīng)網(wǎng)絡(luò),通過遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主 體名稱進行預測,發(fā)現(xiàn)待處理文本中的企業(yè)名稱,并進一步提取出新的企業(yè)名稱。為了實現(xiàn) 上述發(fā)明目的,本發(fā)明提供W下技術(shù)方案:
      [0033 ] -種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法,通過雙向遞歸神經(jīng)網(wǎng)絡(luò)來識 別待處理文本中的企業(yè)主體名稱,包含如圖1所示的實現(xiàn)步驟:
      [0034] (1)選取一定數(shù)量(比如5000件)的包含企業(yè)名稱的文本,并利用現(xiàn)有的企業(yè)數(shù)據(jù) 對文本中的企業(yè)名稱字段進行自動標注,并根據(jù)企業(yè)名稱的具體情況,將企業(yè)名稱分段標 注為開始部分、中間部分和結(jié)束部分。將其他不屬于企業(yè)名稱的部分標注為無關(guān)部分。具體 的,將文本中的企業(yè)或者組織名稱分段標注為B(開始部分)、M(中間部分)和E(結(jié)束部分), 將其他不屬于企業(yè)或者組織機構(gòu)的文字標注為N(非企業(yè)名稱),使用字母或者數(shù)字來標記 文字序列,簡單且易于處理,為后續(xù)相關(guān)序列的操作提供便利。使用現(xiàn)有企業(yè)數(shù)據(jù)來自動標 注樣本,進而進行神經(jīng)網(wǎng)絡(luò)的訓練,極大的節(jié)省了神經(jīng)網(wǎng)絡(luò)在使用過程中人工標注樣的人 力和時間成本,簡化了神經(jīng)網(wǎng)絡(luò)技術(shù)的應用過程。
      [0035] (2)將經(jīng)過人工標記的訓練樣本中的文字序列依次正向和反向輸入到所述雙向遞 歸神經(jīng)網(wǎng)絡(luò)中,訓練所述雙向遞歸神經(jīng)網(wǎng)絡(luò);(所述正向輸入是指將序列中的字或者詞,按 照位置的前后順利依次輸入對應時刻的遞歸神經(jīng)網(wǎng)絡(luò)中,所述反向輸入是指將序列中的字 或者詞倒序依次輸入對應時刻的遞歸神經(jīng)網(wǎng)中)所述雙向歸神經(jīng)網(wǎng)絡(luò)每個當前時刻的輸入 信號還包括上一時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號,正向和反向信息傳輸入都結(jié)束 后,停止遞歸。
      [0036] (3)將待分析文檔中的文字序列輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)對輸入的文字序列進行分類,分別識別出待提取文字序列的類型(N、B、M或者 E),將分類結(jié)果中兩個相鄰N之間的B M E序列對應的文字作為企業(yè)名稱整體提取出來。
      [0037] 進一步的,本發(fā)明方法包含對待處理文本(所述待處理文本包括標注文本和待分 析文本)進行分詞處理的步驟。將待處理文本適當分詞之后形成對應的文字序列,目前可用 的分詞工具很多比如說:斯坦福分詞器、ICTCLAS、盤古分詞、盾下分詞器……通過分詞將較 長的文本內(nèi)容分解成相對獨立的字詞單元,使待處理文本內(nèi)容離散化、序列化,為遞歸神經(jīng) 網(wǎng)絡(luò)的應用提供基礎(chǔ)。
      [0038] 進一步的,所述步驟(1)根據(jù)分詞處理的結(jié)果,對訓練樣本中的企業(yè)主體名稱進行 相應的標注。
      [0039] 具體的,所述步驟(2)中,所述雙向遞歸神經(jīng)網(wǎng)絡(luò)采用W下向前算法公式:
      [0040]
      [0041]
      [0042]
      [0043]
      [0044]
      [0045]
      [0046] I為文字序列中的字或者詞向量化后的維度,H為隱含層的神經(jīng)元個數(shù),K是輸出層 神經(jīng)元的個數(shù),其中aj;為正向輸入(文字序列正向輸入神經(jīng)網(wǎng)絡(luò))時,t時刻所述雙向遞歸神 經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入(本發(fā)明方法中所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的時刻序號與輸入文 字序列的位置序號相對應,比如所文字序列中處于第3位置的字或者詞,對應輸入第3時刻 的雙向遞歸神經(jīng)網(wǎng)絡(luò)中),0?-為反向輸入(文字序列反向輸入神經(jīng)網(wǎng)絡(luò))時,t時刻所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入,為正向輸入時t時刻隱含層神經(jīng)元的輸出,為 方' -V 反向輸入時t時刻隱含層神經(jīng)元的輸出,0〇為為隱含層神經(jīng)元的非線性激勵函數(shù),4為t時 刻輸出層神經(jīng)元的輸入,可W看出沒i結(jié)合了 t時刻正向輸入時隱含層神經(jīng)元的輸出信號和 反向輸入時的隱含層神經(jīng)元的輸出信號),泣i的計算結(jié)果一直向前傳播直到所述雙向遞歸 神經(jīng)網(wǎng)絡(luò)輸出該時刻的分類結(jié)果;運樣在計算當前時刻對應字或者詞的分類結(jié)果時既結(jié)合 了歷史序列信息又結(jié)合了未來序列信息,依賴了整個文本的上下文信息而非局部信息,從 而使得預測結(jié)果達到了全局最優(yōu)為t時刻輸出層神經(jīng)元的輸出,為一個概率值,表示 第k個神經(jīng)元的輸出值相對于K個神經(jīng)元輸出值總和的比值,通常取。最大的神經(jīng)元對應 的分類為該時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)預測的最終分類。6^9和是各個維度值均為0的向 々' 巧, 量,T為輸入序列的長度。
      [0047] 根據(jù)該向前算法公式,本發(fā)明方法的信號流向如圖2、圖3所示(其中vec-a、vec-b、 vec-c、vec-d、vec-e、vec-f、vec-g、vec-h、vec-i、vec-j、vec-k、vec-l、vec_m......vec-z等 代表詞典映射表中二維矩陣的行向量)。
      [0048] 從上述向前算法公式可W看出,本發(fā)明方法使用雙向遞歸神經(jīng)網(wǎng)絡(luò)的方式在預測 企業(yè)名稱時,在一次向前算法中先將文本序列從頭至尾依次正向輸入所述遞歸神經(jīng)網(wǎng)絡(luò) 中,再從尾至頭反向輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中;在正向和反向輸入的過程中各時刻雙向 遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號包括該時刻向量化的字或者詞信號和上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的 輸出信號,僅在反向輸入時所述雙向遞歸神經(jīng)網(wǎng)絡(luò)才輸出該時刻對應字或者詞的分類結(jié) 果。運樣在預測企業(yè)主體名稱時既依賴了前文信息又依賴了后文信息,預測的結(jié)果為實現(xiàn) 了全局優(yōu)化,識別的可靠性更高。而且通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式,無需手動設(shè)置特 征模板,節(jié)省人力且通用性更好,可W在各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱,識別的召 回率較傳統(tǒng)基于規(guī)則的處理方法顯著提高。
      [0049] 進一步的,本發(fā)明采用上述向前算法在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中來逐層傳輸運算 數(shù)據(jù),在輸出層獲取到識別(預測)數(shù)據(jù),當預測結(jié)果與訓練樣本的標注結(jié)果具有偏差時,通 過神經(jīng)網(wǎng)絡(luò)中經(jīng)典的誤差反向傳播算法來調(diào)整神經(jīng)網(wǎng)絡(luò)中的各個權(quán)重,誤差反向傳播方法 將誤差逐級反向傳播分攤到各層的所有神經(jīng)元,獲得各層神經(jīng)元的誤差信號,進而修正各 神經(jīng)元的權(quán)重。通過向前算法逐層傳輸運算數(shù)據(jù),并通過向后算法來逐漸修改各神經(jīng)元的 權(quán)重的過程就是神經(jīng)網(wǎng)絡(luò)的訓練過程;重復上述過程,直到預測結(jié)果的正確率達到設(shè)定的 闊值,停止訓練,此時可認為所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模型已經(jīng)訓練完成。
      [0050] 進一步的,所述步驟(3)中,將所述雙向遞歸神經(jīng)網(wǎng)絡(luò)分類結(jié)果中NBM-'EN、NBM--- N、醒…EN中BM…E、BM…、M-'E對應的文字作為企業(yè)名稱整體提取出來,其中M…為至少1個M 組成的序列,運樣就完成了企業(yè)名稱的判斷和提取。運樣本發(fā)明方法不僅可W判斷出命名 規(guī)則的企業(yè)名稱:BM…E,也可W發(fā)現(xiàn)非正式文本中的企業(yè)簡稱:BM…、M…E,比如說一家企 業(yè)名稱在正式文本為:"北京XXXX有限公司"而在非正式文本中則可能W "北京XXXX"的形式 出現(xiàn),省略了常規(guī)企業(yè)名稱提取中所依賴的關(guān)鍵后綴:"企業(yè)"、"公司"、"集團"等,而通過本 發(fā)明方法運樣的簡稱或者縮寫:BM…、M…E也可W被提取出來,極大的提高了企業(yè)名稱發(fā)現(xiàn) 的召回率,改善了企業(yè)名稱提取不全而出現(xiàn)的信息漏判問題。
      [0051] 進一步的,本發(fā)明方法中通過構(gòu)建詞典映射表來實現(xiàn)待處理文本中字或者詞的向 量化。所述詞典映射表為一個二維矩陣,其中每一個行向量對應一個字或者詞,而運種行向 量與字詞的對應關(guān)系是在構(gòu)建運個詞典映射表時設(shè)置的。
      [0052] 進一步的,在人工標注文本的樣本中選取35%的樣本作為開發(fā)樣本,65%的樣本 為訓練樣本。在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓練過程中僅保留在開發(fā)集上識別準確率最高的模 型。在神經(jīng)網(wǎng)絡(luò)的訓練過程中使用開發(fā)集來驗證訓練的效果,可W防止神經(jīng)網(wǎng)絡(luò)訓練模型 的過擬合,保證神經(jīng)網(wǎng)絡(luò)的訓練朝著正確的方向進行。
      [0化3]實施例1
      [0054]比如在網(wǎng)絡(luò)獲取了如下的新聞文本:"2016年3月15日公告,公司第屯屆董事會第 五次會議,審議通過了《關(guān)于公司及全資子公司投資成立子公司的議案》,公司擬成立的六 家全資子公司分別為ABCD醫(yī)療投資管理有限公司、ABCD醫(yī)藥電子商務有限公司、ABCD投資 基金管理有限公司、ABCD新能源有限公司、ABCD基礎(chǔ)設(shè)施投資有限公司、ABCD投資有限公 司。投資金額:總投資金額折合人民幣約為6.3億元。"經(jīng)過分詞得到:"2016年/3月/15日/公 告/,/公司/第屯/屆/董事會/第五/次/會議/,/審議/通過了關(guān)于/公司/及/全資/子公 司/投資/成立/子公司/的/議案/》/,/公司/擬/成立/的/六家/全資/子公司/分別為/AB/ CD/醫(yī)療/投資管理/有限公司A/AB/CD/醫(yī)藥/電子商務/有限公司A/AB/CD/投資/基金管 理/有限公司A/AB/CD/新能源/有限公司A/AB/CD/基礎(chǔ)設(shè)施/投資/有限公司A/AB/CD/投 資/有限公司/。/投資/金額/:/總/投資/金額/折合/人民幣/約為/6.3億元/。"將上述經(jīng)過 分詞形成的文字序列,輸入到所述雙向遞歸神經(jīng)中,經(jīng)過所述遞歸神經(jīng)網(wǎng)絡(luò)的預測,輸出: "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNMMMMENMMMMENMMMMENMMMENMMMMENMMMMENNNNN 順順順滬將分類序歹1]中的11116畫116、]\11116、1116、11116、]\11116對應的文字序歹1]:。八8〔0 醫(yī)療投資管理有限公司"、"ABCD醫(yī)藥電子商務有限公司"、"ABCD投資基金管理有限公司"、 "ABCD新能源有限公司"、"ABCD基礎(chǔ)設(shè)施投資有限公司"、"ABCD投資有限公司"作為企業(yè)名 稱整體提取出來。將上述提取出來的企業(yè)名稱和現(xiàn)有的企業(yè)名稱數(shù)據(jù)庫進行對比,如果上 述企業(yè)名稱不存在與現(xiàn)有的企業(yè)名稱數(shù)據(jù)庫中,則將上述企業(yè)名稱作為新的企業(yè)添加進入 現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中,為相關(guān)的數(shù)據(jù)分析提供基礎(chǔ)。
      【主權(quán)項】
      1. 一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的新企業(yè)名稱發(fā)現(xiàn)方法,其特征在于,通過現(xiàn)有的企業(yè) 名稱數(shù)據(jù)自動標注樣本來訓練雙向遞歸神經(jīng)網(wǎng)絡(luò),通過所述雙向遞歸神經(jīng)網(wǎng)絡(luò)自動識別出 待處理文本中的企業(yè)名稱,并將其中新企業(yè)名稱提取出來。2. 如權(quán)利要求1所述的方法,其特征在于,包含以下實現(xiàn)步驟: (1) 使用現(xiàn)有企業(yè)名稱列表數(shù)據(jù)來自動標注訓練樣本中的企業(yè)名稱,并將企業(yè)名稱分 段標記為:開始部分、中間部分、結(jié)束部分,將企業(yè)主體名稱以外的文字標記為無關(guān)部分; (2) 將經(jīng)過人工標記的訓練樣本中的文字序列,先正向再反向輸入所雙向述遞歸神經(jīng) 網(wǎng)絡(luò)中,訓練所述雙向遞歸神經(jīng)網(wǎng)絡(luò); (3) 將待分析文本中的文字序列,先正向再反向輸入訓練好的所述雙向遞歸神經(jīng)網(wǎng)絡(luò) 中,經(jīng)過雙向遞歸神經(jīng)網(wǎng)絡(luò)判斷出文字序列中各個詞或者字的類型,并將其中相鄰的屬于 企業(yè)名稱的開始中間結(jié)束部分對應的字詞作為一個整體提取出來; (4) 將所述雙向遞歸神經(jīng)網(wǎng)絡(luò)識別出來的企業(yè)名稱與現(xiàn)有企業(yè)列表數(shù)據(jù)對比,將不屬 于現(xiàn)有企業(yè)名稱的作為新的企業(yè)名稱提取出來。I為向量化的字或者ι^」ι=π?^/又,i 工yu I夕人UU經(jīng)兀的個數(shù),其中?為正向輸入時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入,^為反向輸入時t3. 如權(quán)利要求2所述的方法,其特征在于,所述雙向遞歸神經(jīng)網(wǎng)絡(luò)采用如下向前算法公 式: 時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入,%為正向輸入時t時刻隱含層神經(jīng)元 的輸出,%為反向輸入時t時刻隱含層神經(jīng)元的輸出,θ ()為為隱含層神經(jīng)元的非線性激勵 函數(shù),<4為t時刻輸出層神經(jīng)元的輸入,%為t時刻輸出層神經(jīng)元的輸出,Μ為一個概率值, 表示第k個神經(jīng)元的輸出值相對于Κ個神經(jīng)元輸出值總和的比值。4. 如權(quán)利要求3所述的方法,其特征在于,$和$+1是各個維度值均為0的向量,其中T為 輸入文字序列的長度。5. 如權(quán)利要求1至4之一所述的方法,其特征在于,包含對待處理文本進行分詞的過程, 所述待處理文本包括標注文本和待分析文本。6. 如權(quán)利要求5所述的方法,其特征在于,通過構(gòu)建詞典映射表來實現(xiàn)待處理文本序列 中字或者詞的向量化,所述詞典映射表為一個矩陣,其中的每個行向量對應一個字或者詞, 而行向量與字或者詞的對應關(guān)系在構(gòu)建所述詞典映射時設(shè)置的。7. 如權(quán)利要求6所述的方法,其特征在于,在進行數(shù)據(jù)標注時,將待標注文本中的企業(yè) 名稱的開始部分標記為Β、中間部分標記為Μ、結(jié)束部分標記為Ε,將企業(yè)主體名稱以外的文 字的無關(guān)部分標記為Ν。8. 如權(quán)利要求7所述的方法,其特征在于,所述步驟(3)中,將所述雙向遞歸神經(jīng)網(wǎng)絡(luò)分 類結(jié)果中ΝΒΜ···ΕΝ、ΝΒΜ…Ν、匪…ΕΝ中ΒΜ…Ε、ΒΜ…、Μ···Ε對應的文字作為企業(yè)名稱整體提取 出來,其中Μ···為至少1個Μ組成的序列。9. 如權(quán)利要求8所述的方法,其特征在于,在標注文本中選取35%的樣本作為開發(fā)樣 本,65 %的樣本為訓練樣本。10. 如權(quán)利要求7所述的方法,其特征在于,在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓練過程中僅保 留在開發(fā)集上識別準確率最尚的t旲型。
      【文檔編號】G06F17/27GK105955954SQ201610286706
      【公開日】2016年9月21日
      【申請日】2016年5月3日
      【發(fā)明人】劉世林, 何宏靖
      【申請人】成都數(shù)聯(lián)銘品科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1