一種企業(yè)實體名稱分析識別系統(tǒng)的制作方法

文檔序號：10612783閱讀：1024來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種企業(yè)實體名稱分析識別系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及自然語言處理領(lǐng)域，特別涉及一種企業(yè)實體名稱分析識別系統(tǒng)，所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注訓(xùn)練樣本來訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò)，所述雙向遞歸神經(jīng)網(wǎng)絡(luò)識別出待處理文本中的企業(yè)名稱，并將不屬于現(xiàn)有企業(yè)名稱的名稱提取出來。本發(fā)明系統(tǒng)通過對文本的基本元素，比如字、詞、標(biāo)點符號等進(jìn)行特征的自動學(xué)習(xí)并且應(yīng)用了雙向傳播的RNN使得對待識別的自然語言序列的分類判斷結(jié)果依賴了上下文信息，提取和判斷的準(zhǔn)備率更高，本發(fā)明系統(tǒng)通過已有數(shù)據(jù)特點來發(fā)現(xiàn)新的企業(yè)實體名稱，在大數(shù)據(jù)分析領(lǐng)域特別是以企業(yè)為分析主體的數(shù)據(jù)分析領(lǐng)域中具有重要的應(yīng)用價值。
【專利說明】
一種企業(yè)實體名稱分析識別系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域，特別涉及一種企業(yè)實體名稱分析識別系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展，產(chǎn)生了大量的、公開的網(wǎng)頁數(shù)據(jù)，也因此催發(fā)了各種基于大數(shù)據(jù)技術(shù)的新興產(chǎn)業(yè)，比如互聯(lián)網(wǎng)醫(yī)療、互聯(lián)網(wǎng)教育、企業(yè)或者個人征信等。這些互聯(lián)網(wǎng) 產(chǎn)業(yè)的興起于繁榮離不開大量的信息數(shù)據(jù)分析，而信息分析的價值在于準(zhǔn)確和敏銳，敏銳的分析要求及時快速的發(fā)現(xiàn)新的信息;但是直接從網(wǎng)頁上獲取到數(shù)據(jù)大部分都是非結(jié)構(gòu)化的，為了使用這些數(shù)據(jù)，數(shù)據(jù)清洗工作成了各大公司耗費時間精力最多的地方。而數(shù)據(jù)清洗當(dāng)中特定信息提取，特別是命名實體的提取又是經(jīng)常發(fā)生的事情，比如做企業(yè)征信，最常見的任務(wù)就是從大篇幅文本當(dāng)中提取公司的名字。
[0003] 除了常見的按照"省市+關(guān)鍵字+行業(yè)+組織形式"的規(guī)則來命名之外，還存在大量的例外，比如公司名沒有使用省市作為開頭，又或者在非正式文本里，公司名可能以簡寫、縮寫的方式出現(xiàn)，這直接導(dǎo)致了使用傳統(tǒng)的方式來進(jìn)行的信息解析的召回率不高。此外隨著市場經(jīng)濟的繁榮，新增加的企業(yè)主體不斷出現(xiàn)，新的市場主體的也會隨之出現(xiàn)在各種各樣的網(wǎng)絡(luò)數(shù)據(jù)或媒體新聞中，從海量的網(wǎng)頁資訊中快速準(zhǔn)確的發(fā)現(xiàn)和提取出新的機構(gòu)名稱，對于相關(guān)問題分析的及時性具有特別重要的意義。
[0004] 傳統(tǒng)的自然語言處理方法使用條件隨機場(CRF)對文本進(jìn)行序列建模，進(jìn)行文本分析識別和發(fā)現(xiàn)公司名。使用條件隨機場，首先需要根據(jù)待識別實體的特點來設(shè)計構(gòu)建特征模板，特征模板包括指定窗口大小上下文的一階詞或者多階詞組，詞的前綴、后綴，詞性標(biāo)注等狀態(tài)特征;特征模板的構(gòu)造非常耗時耗力，識別結(jié)果對特征模板的依賴程度極大，而手動設(shè)置的特征模板往往僅依據(jù)部分樣本的特點，通用性差;而且通常只能用到局部的上下文信息，各個特征模板的使用也是相互獨立的，預(yù)測不能依賴更長的歷史狀態(tài)信息，也無法利用更長未來的信息反饋來糾正可能的歷史錯誤;預(yù)測過程費時費力，預(yù)測結(jié)果難以實現(xiàn)全局最優(yōu)。
[0005] 為了及時敏銳的在海量信息中分析出新的信息主體，研發(fā)一套可以及時發(fā)現(xiàn)和搜集新的企業(yè)名稱的系統(tǒng)是很有價值的。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足，本發(fā)明提供一種企業(yè)實體名稱分析識別系統(tǒng)，利用已有的企業(yè)名稱數(shù)據(jù)標(biāo)注樣本來訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò)，通過遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主體名稱進(jìn)行預(yù)測，發(fā)現(xiàn)待處理文本中的企業(yè)名稱，并進(jìn)一步提取出新的企業(yè)名稱。
[0007] 為了實現(xiàn)上述發(fā)明目的，本發(fā)明提供了以下技術(shù)方案：
[0008] -種企業(yè)實體名稱分析識別系統(tǒng)，所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注的訓(xùn)練樣本來訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò)，訓(xùn)練完成后的雙向遞歸神經(jīng)網(wǎng)絡(luò)識別出待識別文本中的企業(yè)名稱，并將不屬于現(xiàn)有名稱的企業(yè)名稱作為新的企業(yè)名稱提取出來。所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注訓(xùn)練樣本時，將樣本中的企業(yè)名稱分段標(biāo)注為:開始部分、中間部分和結(jié)束部分，將不屬于企業(yè)名稱的標(biāo)注為無關(guān)部分。
[0009] 具體的:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，采用如下向前算法公式：
[0010]
[0011]
[0012]
[0013]
[0014]
[0015]
[0016] I為向量化的字或者詞的維度，Η為隱含層的神經(jīng)元個數(shù)，K是輸出層神經(jīng)元的個數(shù)，其中4為正向輸入時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入，%為反向輸入時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入，$為正向輸入時t時刻隱含層神經(jīng)元的輸出，$為反向輸入時t時刻隱含層神經(jīng)元的輸出，θ()為為隱含層神經(jīng)元的非線性激勵函數(shù)，式為t時刻輸出層神經(jīng)元的輸入，Μ為t時刻輸出層神經(jīng)元的輸出，％為一個概率值，表示第k個神經(jīng)元的輸出值相對于K個神經(jīng)元輸出值總和的比值;$和6^是各個維度值均為〇的向量，其中T為輸入文字序列的長度。
[0017]所述雙向遞歸神經(jīng)網(wǎng)絡(luò)在預(yù)測各時刻輸入向量數(shù)據(jù)的分類時，結(jié)合了正反向傳播時該時刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出信號;正反向傳播時各個時刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng) 元的輸入信號除了包含向量化的字、詞信號以外還包括上一時刻隱含層神經(jīng)元的輸出信號。
[0018] 所述系統(tǒng)將雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果中相鄰的屬于企業(yè)名稱開始部分、K個中間部分和結(jié)束部分對應(yīng)的字詞作為企業(yè)名稱提取出來，其中K為多0的整數(shù)。
[0019] 進(jìn)一步的，所述系統(tǒng)包括分詞模塊，所述分詞模塊對現(xiàn)有企業(yè)名稱和待處理文本進(jìn)行分詞，所述待處理文本包括訓(xùn)練樣本和待識別文本。
[0020] 作為一種優(yōu)選，所述分詞模塊為stanford-segmenter分詞器。
[0021] 進(jìn)一步的，所述系統(tǒng)包括詞典映射模塊，所述詞典映射模塊將待識別文本中經(jīng)過分詞處理后的字、詞或者標(biāo)點轉(zhuǎn)化成向量數(shù)據(jù)后輸入所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中。
[0022] 進(jìn)一步的、所述遞歸神經(jīng)網(wǎng)絡(luò)模塊為加載有上述功能程序的計算機、服務(wù)器或者移動智能終立而。
[0023] 進(jìn)一步的、所述系統(tǒng)為加載有上述程序功能的計算機、服務(wù)器或者移動智能終端。
[0024] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果:本發(fā)明提供一種企業(yè)實體名稱分析識別系統(tǒng)，利用已有的企業(yè)名稱數(shù)據(jù)標(biāo)注樣本來訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò)，通過遞歸神經(jīng)網(wǎng)絡(luò) 來對文本中的企業(yè)主體名稱進(jìn)行預(yù)測，發(fā)現(xiàn)待處理文本中的企業(yè)名稱，并進(jìn)一步提取出新的企業(yè)名稱。使用時在一次向前算法中先將文本序列從頭至尾依次正向輸入所述遞歸神經(jīng) 網(wǎng)絡(luò)中，再從尾至頭反向輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中；在正向和反向輸入的過程中各時刻雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包括上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號。這樣在預(yù)測企業(yè) 主體名稱時既依賴了前文信息又依賴了后文信息，預(yù)測的結(jié)果實現(xiàn)了全局優(yōu)化，識別的可靠性更高。而且通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式，無需手動設(shè)置特征模板，節(jié)省人力且通用性更好，可以在各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱，識別的召回率較傳統(tǒng)基于規(guī)則的處理方法顯著提高。本發(fā)明在發(fā)現(xiàn)企業(yè)名稱的基礎(chǔ)上，對比現(xiàn)有企業(yè)名稱數(shù)據(jù)庫，將不屬于現(xiàn)有數(shù)據(jù)的企業(yè)名稱確定為新發(fā)現(xiàn)的企業(yè)名稱，添加到企業(yè)名稱數(shù)據(jù)庫中，利用本發(fā)明系統(tǒng)在海量互聯(lián)網(wǎng)數(shù)據(jù)信息中快速的發(fā)現(xiàn)新的企業(yè)名稱，為相關(guān)信息的及時捕捉提供了有力工具。
【附圖說明】：
[0025] 圖1為本企業(yè)實體名稱分析識別系統(tǒng)功能模塊連接示意圖。
[0026] 圖2為本企業(yè)實體名稱分析識別系統(tǒng)的實現(xiàn)企業(yè)實體名稱識別的步驟示意圖。
[0027] 圖3為本企業(yè)實體名稱分析識別系統(tǒng)實施例1的實現(xiàn)信號流程示意圖。
[0028]應(yīng)該明白本發(fā)明說明書附圖僅為示意性的，不代表真實的實施方式。
【具體實施方式】
[0029] 下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例，凡基于本
【發(fā)明內(nèi)容】
所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
[0030] 提供一種企業(yè)實體名稱分析識別系統(tǒng)。本發(fā)明系統(tǒng)利用已有的企業(yè)名稱數(shù)據(jù)標(biāo)注樣本來訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，通過遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主體名稱進(jìn)行預(yù) 測，發(fā)現(xiàn)待處理文本中的企業(yè)名稱，在分析出企業(yè)名稱的基礎(chǔ)上，對比現(xiàn)有企業(yè)名稱庫，將現(xiàn)有企業(yè)名稱中未收錄的名稱作為新的企業(yè)名稱存儲于數(shù)據(jù)庫中。本發(fā)明系統(tǒng)，使用現(xiàn)有的企業(yè)名稱數(shù)據(jù)庫中的數(shù)據(jù)來自動標(biāo)注訓(xùn)練樣本，極大的節(jié)省了神經(jīng)網(wǎng)絡(luò)使用過程中手動標(biāo)注樣本的時間成本，使得神經(jīng)網(wǎng)絡(luò)的使用過程更加簡化。不僅如此本發(fā)明系統(tǒng)通過雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊來預(yù)測企業(yè)主體名稱時既依賴了前文信息又依賴了后文信息，預(yù)測的結(jié) 果實現(xiàn)了全局優(yōu)化，識別的可靠性更高，且無需手動設(shè)置特征模板，可以在各種類型的文本中發(fā)現(xiàn)并提取新的企業(yè)名稱，為相關(guān)信息的及時分析提供技術(shù)支撐。
[0031] -種企業(yè)實體名稱分析識別系統(tǒng)，所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注的訓(xùn)練樣本來訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò)，訓(xùn)練完成后的雙向遞歸神經(jīng)網(wǎng)絡(luò)識別出待識別文本中的企業(yè)名稱，并將不屬于現(xiàn)有名稱的企業(yè)名稱作為新的企業(yè)名稱提取出來。所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注訓(xùn)練樣本時，將樣本中的企業(yè)名稱分段標(biāo)注為:開始部分、中間部分和結(jié)束部分，將不屬于企業(yè)名稱的標(biāo)注為無關(guān)部分。所述系統(tǒng)將雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果中將相鄰的屬于企業(yè)名稱開始部分、K個中間部分和結(jié)束部分對應(yīng)的字詞作為企業(yè)名稱提取出來，其中K 為彡0的整數(shù)。
[0032]本發(fā)明系統(tǒng)實現(xiàn)新企業(yè)實體名稱自動分析，包含如圖2所述的以下步驟：
[0033] (1)選取一定數(shù)量（比如5000件）的包含企業(yè)名稱的文本，并利用現(xiàn)有的企業(yè)數(shù)據(jù) 對文本中的企業(yè)名稱字段進(jìn)行自動標(biāo)注，并根據(jù)企業(yè)名稱的具體情況，將企業(yè)名稱分段標(biāo) 注為開始部分、中間部分和結(jié)束部分。將其他不屬于企業(yè)名稱的部分標(biāo)注為無關(guān)部分。具體的，將文本中的企業(yè)或者組織名稱分段標(biāo)注為B(開始部分）、M(中間部分)和E(結(jié)束部分），將其他不屬于企業(yè)或者組織機構(gòu)的文字標(biāo)注為N(非企業(yè)名稱），使用字母或者數(shù)字來標(biāo)記文字序列，簡單且易于處理，為后續(xù)相關(guān)序列的操作提供便利。使用現(xiàn)有企業(yè)數(shù)據(jù)來自動標(biāo) 注樣本，進(jìn)而進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，極大的節(jié)省了神經(jīng)網(wǎng)絡(luò)在使用過程中人工標(biāo)注樣的人力和時間成本，簡化了神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用過程。
[0034] (2)將經(jīng)過人工標(biāo)記的訓(xùn)練樣本中的文字序列依次正向和反向輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中，訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò)；（所述正向輸入是指將序列中的字或者詞，按照位置的前后順利依次輸入對應(yīng)時刻的遞歸神經(jīng)網(wǎng)絡(luò)中，所述反向輸入是指將序列中的字或者詞倒序依次輸入對應(yīng)時刻的遞歸神經(jīng)網(wǎng)中）所述雙向歸神經(jīng)網(wǎng)絡(luò)每個當(dāng)前時刻的輸入信號還包括上一時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號，正向和反向信息傳輸入都結(jié)束后，停止遞歸。
[0035] (3)將待分析文檔中的文字序列輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中，經(jīng)過所述雙向遞歸神經(jīng)網(wǎng)絡(luò)對輸入的文字序列進(jìn)行分類，分別識別出待提取文字序列的類型(N、B、M或者 E)，將分類結(jié)果中兩個相鄰N之間的Β Μ E序列對應(yīng)的文字作為企業(yè)名稱整體提取出來。
[0036] (4)在實現(xiàn)待識別文本企業(yè)名提取的基礎(chǔ)上，將提取出來的企業(yè)名稱與現(xiàn)有企業(yè) 名稱數(shù)據(jù)庫中存儲的企業(yè)名稱進(jìn)行對比，將數(shù)據(jù)庫中未收錄的企業(yè)名稱作為新的企業(yè)名稱保存起來，供數(shù)據(jù)分析所用。具體的:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，采用如下向前算法公式：
[0037]
[0038]
[0039]
[0040]
[0041]
[0042]
[0043] I為文字序列中的字或者詞向量化后的維度，Η為隱含層的神經(jīng)元個數(shù)，K是輸出層神經(jīng)元的個數(shù)，其中%為正向輸入(文字序列正向輸入神經(jīng)網(wǎng)絡(luò))時，t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入(本發(fā)明系統(tǒng)中所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的時刻序號與輸入文字序列的位置序號相對應(yīng)，比如所文字序列中處于第3位置的字或者詞，對應(yīng)輸入第3時刻的雙向遞歸神經(jīng)網(wǎng)絡(luò)中），<為反向輸入(文字序列反向輸入神經(jīng)網(wǎng)絡(luò))時，t時刻所述雙向 ? 遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入，為正向輸入時t時刻隱含層神經(jīng)元的輸出，為 h η 反向輸入時t時刻隱含層神經(jīng)元的輸出，θ()為為隱含層神經(jīng)元的非線性激勵函數(shù)，ai為t時刻輸出層神經(jīng)元的輸入，可以看出4結(jié)合了 t時刻正向輸入時隱含層神經(jīng)元的輸出信號和反向輸入時的隱含層神經(jīng)元的輸出信號），< 的計算結(jié)果一直向前傳播直到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)輸出該時刻的分類結(jié)果;這樣在計算當(dāng)前時刻對應(yīng)字或者詞的分類結(jié)果時既結(jié)合了歷史序列信息又結(jié)合了未來序列信息，依賴了整個文本的上下文信息而非局部信息，從而使得預(yù)測結(jié)果達(dá)到了全局最優(yōu)。>'?為t時刻輸出層神經(jīng)元的輸出，^為一個概率值，表示第k個神經(jīng)元的輸出值相對于Κ個神經(jīng)元輸出值總和的比值，通常取最大的神經(jīng)元對應(yīng)的分類為該時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測的最終分類。3和 6^是各個維度值均為〇的向量，τ為輸入序列的長度。
[0044] 本發(fā)明系統(tǒng)使用雙向遞歸神經(jīng)網(wǎng)絡(luò)的方式在預(yù)測企業(yè)名稱時，在一次向前算法中先將文本序列從頭至尾依次正向輸入所述遞歸神經(jīng)網(wǎng)絡(luò)中，再從尾至頭反向輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中；在正向和反向輸入的過程中各時刻雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號包括該時刻向量化的字或者詞信號和上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號，僅在反向輸入時所述雙向遞歸神經(jīng)網(wǎng)絡(luò)才輸出該時刻對應(yīng)字或者詞的分類結(jié)果。這樣在預(yù)測企業(yè)主體名稱時既依賴了前文信息又依賴了后文信息，預(yù)測的結(jié)果為實現(xiàn)了全局優(yōu)化，識別的可靠性更高。而且通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式，無需手動設(shè)置特征模板，節(jié)省人力且通用性更好，可以在各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱，識別的召回率較傳統(tǒng)基于規(guī)則的處理方法顯著提尚。
[0045] 進(jìn)一步的，本發(fā)明采用上述向前算法在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中來逐層傳輸運算數(shù)據(jù)，在輸出層獲取到識別(預(yù)測)數(shù)據(jù)，當(dāng)預(yù)測結(jié)果與訓(xùn)練樣本的標(biāo)注結(jié)果具有偏差時，通過神經(jīng)網(wǎng)絡(luò)中經(jīng)典的誤差反向傳播算法來調(diào)整神經(jīng)網(wǎng)絡(luò)中的各個權(quán)重，誤差反向傳播方法將誤差逐級反向傳播分?jǐn)偟礁鲗拥乃猩窠?jīng)元，獲得各層神經(jīng)元的誤差信號，進(jìn)而修正各神經(jīng)元的權(quán)重。通過向前算法逐層傳輸運算數(shù)據(jù)，并通過向后算法來逐漸修改各神經(jīng)元的權(quán)重的過程就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程;重復(fù)上述過程，直到預(yù)測結(jié)果的正確率達(dá)到設(shè)定的閾值，停止訓(xùn)練，此時可認(rèn)為所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模型已經(jīng)訓(xùn)練完成。
[0046] 進(jìn)一步的，所述系統(tǒng)包括分詞模塊，所述分詞模塊對現(xiàn)有企業(yè)名稱和待處理文本進(jìn)行分詞，所述待處理文本包括訓(xùn)練樣本和待識別文本。
[0047] 作為一種優(yōu)選，所述分詞模塊為stanford-segmenter分詞器。目前可用的分詞工具很多比如說:stanford-segmenter分詞器、ICTCLAS、盤古分詞、庖丁分詞器......通過分詞將較長的文本內(nèi)容分解成相對獨立的字詞單元，使待處理文本內(nèi)容離散化、序列化，為遞歸神經(jīng)網(wǎng)絡(luò)的應(yīng)用提供基礎(chǔ)，s tanf or d_s egmen t er分詞器分詞效果較好。
[0048] 進(jìn)一步的，所述系統(tǒng)包括詞典映射模塊，所述詞典映射模塊將待識別文本中經(jīng)過分詞處理后的字、詞或者標(biāo)點轉(zhuǎn)化成向量數(shù)據(jù)后輸入所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中，所述詞典映射模塊包括詞典映射表，所述詞典映射表為一個二維矩陣，其中每一個行向量對應(yīng)一個字、詞或者標(biāo)點符號，行向量與字、詞或者標(biāo)點符號的對應(yīng)關(guān)系為構(gòu)建詞典映射表時所設(shè)置 (本系統(tǒng)可采用如圖1所示的功能模塊連接結(jié)構(gòu)）。
[0049] 進(jìn)一步的、所述遞歸神經(jīng)網(wǎng)絡(luò)模塊為加載有上述功能程序的計算機、服務(wù)器或者移動智能終立而。
[0050] 進(jìn)一步的、所述系統(tǒng)為加載有上述程序功能的計算機、服務(wù)器或者移動智能終端。所述計算機、服務(wù)器或者移動智能終端為系統(tǒng)功能的實現(xiàn)提供硬件基礎(chǔ)。
[0051 ] 實施例1
[0052]本系統(tǒng)的的新企業(yè)名稱發(fā)現(xiàn)過程如下：比如在網(wǎng)絡(luò)獲取了如下的新聞文本："ΧΧΧΧ 年3月15日公告，公司第七屆董事會第五次會議，審議通過了《關(guān)于公司及全資子公司投資成立子公司的議案》，公司擬成立的六家全資子公司分別為ABCD醫(yī)療投資管理有限公司、 ΑΒ⑶醫(yī)藥電子商務(wù)有限公司、ΑΒ⑶投資基金管理有限公司、ΑΒ⑶新能源有限公司、ΑΒ⑶基礎(chǔ) 設(shè)施投資有限公司、ABCD投資有限公司。投資金額:總投資金額折合人民幣約為6.3億元。" 經(jīng)過分詞得到："ΧΧΧΧ年/3月/15日/公告/，/公司/第七/屆/董事會/第五/次/會議/，/審議/ 通過了/《/關(guān)于/公司/及/全資/子公司/投資/成立/子公司/的/議案/》/，/公司/擬/成立/ 的/六家/全資/子公司/分別為/AB/CD/醫(yī)療/投資管理/有限公司A/AB/CD/醫(yī)藥/電子商務(wù)/有限公司A/AB/CD/投資/基金管理/有限公司A/AB/CD/新能源/有限公司A/AB/CD/基礎(chǔ)設(shè)施/投資/有限公司A/AB/CD/投資/有限公司/。/投資/金額/:/總/投資/金額/折合/人民幣/約為/6.3億元/。"將上述經(jīng)過分詞形成的文字序列，輸入到所述雙向遞歸神經(jīng)中，經(jīng) 過所述遞歸神經(jīng)網(wǎng)絡(luò)的預(yù)測，輸出："ΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΜΜΜΜΕΝΜΜΜ ΜΕΝΜΜΜΜΕΝΜΜΜΕΝΜΜΜΜΕΝΜΜΜΜΕΝΝΝΝΝΝΝΝΝΝΝΝ" 將分類序列中的 ΜΜΜΜΕ、ΜΜΜΜΕ、ΜΜΜΜΕ、ΜΜΜΕ、 ΜΜΜΜΕ、ΜΜΜΜΕ對應(yīng)的文字序列："ABCD醫(yī)療投資管理有限公司"、"ABCD醫(yī)藥電子商務(wù)有限公司"、"AB⑶投資基金管理有限公司"、"AB⑶新能源有限公司"、"AB⑶基礎(chǔ)設(shè)施投資有限公司"、"ABCD投資有限公司"作為企業(yè)名稱整體提取出來。本實施例實現(xiàn)企業(yè)名稱提取的信號流程如圖3 所不（其中 vec_a、vec-b、vec-c、vec_d、vec_e、vec-f、vec-g、vec_h、vec_i、vec_ j、vec-k、vec-l、vec_m......vec_z等代表詞典映射表中二維矩陣的行向量)將上述提取出來的企業(yè)名稱和現(xiàn)有的企業(yè)名稱數(shù)據(jù)庫進(jìn)行對比，如果上述企業(yè)名稱不存在與現(xiàn)有的企業(yè)名稱數(shù)據(jù)庫中，則將上述企業(yè)名稱作為新的企業(yè)添加進(jìn)入現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中，為相關(guān)的數(shù)據(jù)分析提供基礎(chǔ)。
【主權(quán)項】
1. 一種企業(yè)實體名稱分析識別系統(tǒng)，所述系統(tǒng)包括雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，其特征在于:所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注的訓(xùn)練樣本來訓(xùn)練雙向遞歸神經(jīng)網(wǎng)絡(luò)，訓(xùn)練完成后的雙向遞歸神經(jīng)網(wǎng)絡(luò)識別出待識別文本中的企業(yè)名稱，并將不屬于現(xiàn)有名稱的企業(yè)名稱作為新的企業(yè)名稱提取出來。2. 如權(quán)利要求1所述的系統(tǒng)，其特征在于:所述系統(tǒng)使用現(xiàn)有企業(yè)名稱數(shù)據(jù)庫中存儲的企業(yè)名稱標(biāo)注訓(xùn)練樣本時，將樣本中的企業(yè)名稱分段標(biāo)注為:開始部分、中間部分和結(jié)束部分，將不屬于企業(yè)名稱的標(biāo)注為無關(guān)部分。3. 如權(quán)利要求2所述的系統(tǒng)，其特征在于:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模塊，采用如下向前算法公式：I為向量化的字或者詞的維度，Η為隱含層的神經(jīng)元個數(shù)，K是輸出層神經(jīng)元的個數(shù)，其中a；；為正向輸入時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入，< 為反向輸入時t 時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入，為正向輸入時t時刻隱含層神經(jīng)元的輸出，6^.為反向輸入時t時刻隱含層神經(jīng)元的輸出，θ()為為隱含層神經(jīng)元的非線性激勵函數(shù)，攻為t時刻輸出層神經(jīng)元的輸入，為t時刻輸出層神經(jīng)元的輸出，為一個概率值，表示第k個神經(jīng)元的輸出值相對于K個神經(jīng)元輸出值總和的比值;^和^>1是各個維度值均為0的向量，其中T為輸入文字序列的長度。4. 如權(quán)利要求3所述的系統(tǒng)，其特征在于:所述雙向遞歸神經(jīng)網(wǎng)絡(luò)在預(yù)測各時刻輸入向量數(shù)據(jù)的分類時，結(jié)合了正反向傳播時該時刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出信號；正反向傳播時各個時刻神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸入信號除了包含向量化的字、詞信號W外還包括上一時刻隱含層神經(jīng)元的輸出信號。5. 如權(quán)利要求4所述的系統(tǒng)，其特征在于:所述系統(tǒng)將雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果中相鄰的屬于企業(yè)名稱開始部分、K個中間部分和結(jié)束部分對應(yīng)的字詞作為企業(yè)名稱提取出來。6. 如權(quán)利要求1至5之一所述的系統(tǒng)，其特征在于:所述系統(tǒng)包括分詞模塊，所述分詞模塊對現(xiàn)有企業(yè)名稱和待處理文本進(jìn)行分詞，所述待處理文本包括訓(xùn)練樣本和待識別文本。7. 如權(quán)利要求6所述的系統(tǒng)，其特征在于：所述分詞模塊為stanford-segmenter分詞器。8. 如權(quán)利要求6所述的系統(tǒng)，其特征在于:所述系統(tǒng)包括詞典映射模塊，所述詞典映射模塊將待識別文本中經(jīng)過分詞處理后的字、詞或者標(biāo)點轉(zhuǎn)化成向量數(shù)據(jù)后輸入所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中。9. 如權(quán)利要求8所述的系統(tǒng)，其特征在于:所述遞歸神經(jīng)網(wǎng)絡(luò)模塊為加載有如權(quán)利要求 1至4之一所述功能程序的計算機、服務(wù)器或者移動智能終端。10. 如權(quán)利要求9所述的系統(tǒng)，其特征在于:所述系統(tǒng)為加載有權(quán)利要求1至8之一所述程序功能的計算機、服務(wù)器或者移動智能終端。
【文檔編號】G06N3/08GK105975456SQ201610286191
【公開日】2016年9月28日
【申請日】2016年5月3日
【發(fā)明人】劉世林, 何宏靖
【申請人】成都數(shù)聯(lián)銘品科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉世林;何宏靖;
技術(shù)所有人：成都數(shù)聯(lián)銘品科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

人臉識別系統(tǒng)需求分析相關(guān)技術(shù)

視頻人臉識別分析系統(tǒng)相關(guān)技術(shù)

命名實體識別相關(guān)技術(shù)

中文命名實體識別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種企業(yè)實體名稱分析識別系統(tǒng)的制作方法