專利名稱::基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種語句相似度算法,具體地說,是涉及一種基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法。
背景技術(shù):
:近年來,由于網(wǎng)絡(luò)新應(yīng)用的不斷出現(xiàn),特別是互聯(lián)網(wǎng)概念的提出及深化,網(wǎng)絡(luò)流量與行為發(fā)生了極大的變化,動(dòng)搖了互聯(lián)網(wǎng)的傳統(tǒng)理論基礎(chǔ),即流量模型從基于泊松分布轉(zhuǎn)變?yōu)榫哂凶韵嗨频奶匦?。?duì)網(wǎng)絡(luò)流量的分布、流量特性、傳輸?shù)男?、用戶與網(wǎng)絡(luò)行為等方面缺乏準(zhǔn)確的理解和精確的描述,嚴(yán)重影響了對(duì)網(wǎng)絡(luò)資源的有效利用與網(wǎng)絡(luò)自身的發(fā)展,從而使得網(wǎng)絡(luò)的可控性和可管理性越來越差,網(wǎng)絡(luò)提供的服務(wù)質(zhì)量與用戶的需求和期望存在著尖銳的矛盾。如何從大規(guī)模的數(shù)據(jù)中最大限度地挖掘出互聯(lián)網(wǎng)用戶的興趣、行為模式,如何對(duì)這些數(shù)據(jù)進(jìn)行以用戶為中心的分類是非常迫切需要解決的問題。數(shù)據(jù)挖掘的最終意義就在于幫助人們對(duì)信息進(jìn)行理解,數(shù)據(jù)的分類、聚類、關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)等等都是為信息的理解服務(wù)。大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)意味著數(shù)據(jù)是多維的、異構(gòu)的、復(fù)雜的,如何對(duì)這些數(shù)據(jù)進(jìn)行有效的理解成了一個(gè)巨大的挑戰(zhàn)。對(duì)于網(wǎng)絡(luò)數(shù)據(jù)來說,除了常規(guī)的一些數(shù)據(jù)挖掘方法外,如何利用網(wǎng)絡(luò)分層來理解信息非常值得研究。神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過簡化、歸納,提煉總結(jié)出來的一類并行處理網(wǎng)絡(luò),利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu)來表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。人工神經(jīng)網(wǎng)絡(luò)(ANN)是由大量并行分布式處理單元組成的簡單處理單元.它有通過調(diào)整連接強(qiáng)度而從經(jīng)驗(yàn)知識(shí)進(jìn)行學(xué)習(xí)的能力并可將這些知識(shí)進(jìn)行運(yùn)算.是模擬人腦的一種技術(shù)系統(tǒng)。由于人工神經(jīng)網(wǎng)絡(luò)具有對(duì)噪聲數(shù)據(jù)的高承受能力和低錯(cuò)誤率的優(yōu)點(diǎn),因此,各種網(wǎng)絡(luò)訓(xùn)練算法的陸續(xù)提出與優(yōu)化,尤其是各種網(wǎng)絡(luò)剪枝算法和規(guī)則提取算法的不斷提出與完善,使得人工神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用越來越為廣大使用者所青睞。語句相似度計(jì)算在自然語言處理領(lǐng)域具有非常廣泛的應(yīng)用背景,例如在問答系統(tǒng)中通過語句相似度計(jì)算找到與問題相匹配的答案;在自動(dòng)文摘系統(tǒng)中通過語句相似度計(jì)算去除冗余信息,抽取文摘句;在信息檢索系統(tǒng)中通過語句相似度計(jì)算找到與用戶需求相似的語句;在基于實(shí)例機(jī)器翻譯中通過語句相似度計(jì)算匹配相似的語句,得到需要的譯文等等。因此,長期以來,句子相似度的算法研究,一直為人們所熱衷。目前,研究語句相似度的方法有基于相同詞匯的方法、使用語義依存的方法、計(jì)算編輯距離的方法、基于關(guān)鍵詞的方法、使用語義詞典的方法、基于語境框架的方法、基于屬性論的方法以及基于統(tǒng)計(jì)的方法等等。其中,基于相同詞匯的方法有很明顯的局限性它對(duì)同義詞之間的替換無能為力;使用語義詞典的方法,雖然可以很好地解決同義詞替換問題,但是單純地使用語義詞典的方法,又沒有考慮到語句內(nèi)部結(jié)構(gòu)和詞語之間的相互作用關(guān)系,準(zhǔn)確率不高;計(jì)算編輯距離的方法通常被用于句子的快速模糊匹配領(lǐng)域,但是其規(guī)定的編輯操作不夠靈活,也沒有考慮詞語的同義替換;而基于統(tǒng)計(jì)的方法,需要構(gòu)造大量的訓(xùn)練語料,工作量十分巨大,而且還存在著數(shù)據(jù)稀疏的問題。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種種基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,結(jié)合基于依存的語義距離計(jì)算方法和編輯距離的計(jì)算方法的優(yōu)點(diǎn),揚(yáng)長避短、互為補(bǔ)充,計(jì)算出語句之間的相似度,并獲得較高的準(zhǔn)確率。為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,包括以下步驟(l)載入分別帶有神經(jīng)網(wǎng)絡(luò)的語義詞典和同義詞詞林;(2)輸入完整的待分析語句;(3)利用依存文法分析器分析出語句的整體句法結(jié)構(gòu),然后對(duì)語句進(jìn)行分層,并獲取語句的有效成分序列;(4)根據(jù)分層及其有效成分序列,確定語句在exUCL標(biāo)簽庫中對(duì)應(yīng)的標(biāo)題字段;(5)判斷語句是否有相似詞對(duì),若有則計(jì)算語句的相似度,反之,則重新輸入新的待分析語句,再次進(jìn)行相似度計(jì)算。所謂exUCL是指網(wǎng)頁數(shù)據(jù)多層語義描述標(biāo)簽。所述整體句法結(jié)構(gòu)的分層包括第一層,語句的謂語中心詞;第二層,謂語中心詞的有效支配成分。所述第二層獲取的方法是利用依存算法分析器對(duì)語句進(jìn)行分詞和詞性標(biāo)注。所述語句相似度計(jì)算包括對(duì)第一層進(jìn)行語義距離計(jì)算和對(duì)第二層進(jìn)行編輯距離計(jì)算。所述語義距離計(jì)算公式如下S(Sen"Seri2)=A氺SIM(Ser^,Sen2)+(1-A)*SIM'(Se&,Sen2)所述語句相似度按照下列公式計(jì)算5等,,&)=Ma(m,打)其中,Dis(SpS2)=aXdisJSpS2)+PXdisJSpS2)所述語句相似度計(jì)算完成后,還將計(jì)算結(jié)果發(fā)送至神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果輸入至語義詞典和同義詞詞林,實(shí)現(xiàn)語義詞典和同義詞詞林的動(dòng)態(tài)更新。本發(fā)明的總體思想借鑒骨架依存樹的思想,首先分析出句子的整體句法結(jié)構(gòu),所謂的整體句法結(jié)構(gòu),就是用該語句的謂語中心詞及其有效支配成分來表示。它的特點(diǎn)是把一個(gè)語句分成兩個(gè)層次,第一層為語句的謂語中心詞,第二層為語句中謂語中心詞的有效支配成分。當(dāng)?shù)玫竭@兩個(gè)層次以后,對(duì)第一層利用語義詞典進(jìn)行語義距離計(jì)算,在計(jì)算的同時(shí),語義詞典會(huì)在使用的過程中不斷利用神經(jīng)網(wǎng)絡(luò)進(jìn)行自主學(xué)習(xí),從而不斷完善語義詞典的功能。而第二層則利用編輯距離的方法計(jì)算,最后將兩個(gè)層次得到的結(jié)果相加。本發(fā)明的基本方法為首先,利用依存文法分析器析出句子的整體句法結(jié)構(gòu),得到句子的謂語中心詞,即句子的第一層,然后再利用依存算法分析器的分詞和詞性標(biāo)注功能分別得到兩個(gè)句子的第二層的m個(gè)和n個(gè)有效成分序列wll,wl2,…,wlm和w21,w22,…,w2n,得到這兩個(gè)層次以后就可以對(duì)兩個(gè)句子的相似度進(jìn)行計(jì)算。計(jì)算公式見式(8)與(9):4,,,S2)=^i^其中Dis(Sl,S2)為兩個(gè)句子的編輯距離,disJSl,S2)和dis2(Sl,S2)分別為兩個(gè)層次的距離,并對(duì)不同層賦予不同的權(quán)重。m和n分別為兩句子第二層有效成分的個(gè)數(shù)。本發(fā)明主要利用了基于依存的語義相似度算法體現(xiàn)句子內(nèi)部的結(jié)構(gòu)和詞語之間的相互作用關(guān)系的特點(diǎn),以及編輯距離算法由于同義詞詞林的應(yīng)用可以兼顧同義詞之間的替換,并體現(xiàn)組成語句的每個(gè)詞深層的語義信息的優(yōu)點(diǎn),在此基礎(chǔ)上,將兩種算法有效地組合起來,充分利用兩種方法的優(yōu)點(diǎn),實(shí)現(xiàn)從語句的詞匯及詞匯之間的結(jié)構(gòu)關(guān)系兩方面來表達(dá)語句的信息,從而使語句相似度的算法精度大大提高。本發(fā)明屬于大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集成與挖掘技術(shù)中語義的抽取技術(shù),主要應(yīng)用于數(shù)據(jù)檢索、抽取文摘、網(wǎng)絡(luò)安全監(jiān)控等領(lǐng)域。圖l為本發(fā)明的系統(tǒng)框圖。圖2為本發(fā)明的程序流程圖。圖3為"愛因斯坦是一位當(dāng)代杰出人才"的依存關(guān)系示意圖。圖4為"愛因斯坦是一位當(dāng)代杰出人才"的依存樹示意圖。圖5為"事發(fā)后,傷員被及時(shí)送往就近醫(yī)院救治"的依存樹示意圖。圖6為"晚上7時(shí)左右,所有傷員被送到了醫(yī)院"的依存樹示意圖。圖7為"事發(fā)后,傷員被及時(shí)送往就近醫(yī)院救治"的語義依存樹示意圖,圖8為"晚上7時(shí)左右,所有傷員被送到了醫(yī)院"的語義依存樹示意圖,圖9為"愛吃蘋果"和"喜歡吃香蕉"的編輯距離示意圖。具體實(shí)施例方式下面通過舉例來對(duì)本發(fā)明作詳細(xì)描述。在此先分別介紹基于依存的語義相似度算法和編輯距離算法?!?基于依存的語義相似度算法依存句法是由法國語言學(xué)家L.Tesniere在其著作《結(jié)構(gòu)句法基礎(chǔ)》(1959年)中提出的。依存文法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動(dòng)詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者。二十世紀(jì)七十年代,Robinson提出依存語法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,中國學(xué)者又提出了依存關(guān)系的第五條公理①一個(gè)句子中只有一個(gè)成分是獨(dú)立的;②其它成分直接依存于某一成分;③任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分;如果A成分直接依存于B成分,而C成分在句中位于A和B之間,那么C或者直接依存于B,或者直接依存處于A和B之間的某一成分;⑤中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。在利用依存文法進(jìn)行相似度計(jì)算時(shí),只考慮那些有效搭配對(duì)之間的相似程度。所謂有效搭配對(duì)是指全句核心詞和直接依存于它的有效詞組成的搭配對(duì),這里有效詞定義為動(dòng)詞、名詞以及形容詞,它是由分詞后的詞性標(biāo)注決定的。(1)句子依存結(jié)構(gòu)的建立利用依存結(jié)構(gòu)計(jì)算句子間的相似度,關(guān)鍵的一步是如何獲得句子各成分間的依存關(guān)系信息。本發(fā)明中采用了哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院信息檢索研究室所作的依存句法分析器。通過該依存句法分析器的分析,句子各成分之間的依存關(guān)系可以表示如下圖l所示例句愛因斯坦是一位當(dāng)代杰出人才,其依存關(guān)系如圖3,把該結(jié)果形成立體結(jié)構(gòu)的依存樹,可以表示為如圖4所示結(jié)構(gòu)。(2)相似度計(jì)算依存樹是一個(gè)復(fù)雜的非線性關(guān)系,如果對(duì)整個(gè)依存樹進(jìn)行完全匹配的話,所花費(fèi)的代價(jià)是巨大的;另外,一個(gè)完整的漢語句子是由句子的關(guān)鍵成分和修飾成分所構(gòu)成,而人們往往從關(guān)鍵成分就可以了解一個(gè)句子的大概意思。但由于漢語表達(dá)形式的多樣性,相同的關(guān)鍵成分可用不同的修飾成分來修飾,如果強(qiáng)調(diào)修飾成分,這無疑會(huì)給句子間相似度的計(jì)算增加噪音。基于以上兩點(diǎn),利用依存結(jié)構(gòu)進(jìn)行相似度計(jì)算時(shí),只考慮那些有效搭配對(duì)之間的相似程度。所謂有效搭配對(duì)是指全句核心詞和直接依存于它的有效詞組成的搭配對(duì),這里有效詞定義為動(dòng)詞、名詞以及形容詞,它是由分詞后的詞性標(biāo)注決定的。例如以下兩個(gè)句子間的比較例句1:事發(fā)后,傷員被及時(shí)送往就近醫(yī)院救治,其依存樹如圖5所示。例句2:晚上7時(shí)左右,所有傷員被送到了醫(yī)院,其依存樹如圖6所示。從圖5和圖6中可以看出,所以例句1的有效搭配對(duì)為送往_傷員、送往_醫(yī)院、送往_救治。例句2的有效搭配對(duì)為送到_傷員、送到_醫(yī)院。只要比較它們之間的相似程度即可,這樣一來比較算法的復(fù)雜度就大大降低,而準(zhǔn)確率也會(huì)得到一定程度的提高。相似度計(jì)算公式見式(1):s/m(5^,&)=-^-(;l)式中£附為句子1和句子2有效搭配對(duì)匹配的總權(quán)重,PairCoun^為句子1有效搭配對(duì)數(shù),PairCount2為句子2有效搭配對(duì)數(shù)。上述算法中,大配對(duì)的匹配權(quán)重是這樣定義的假設(shè)有兩個(gè)搭配對(duì)①Wordl_Word2②Wordl,_Word2,;如果Wordl=Wordl'且Word2=Word2'則搭配對(duì)①和搭配對(duì)②的匹配權(quán)重為1;如果Wordl-Wordl'且Word2=Word2'或者Wordl=Wordl'且Word2-Word2',則搭配對(duì)①和搭配對(duì)②的匹配權(quán)重為0.5;否則為0。所以由上面公式就可以求出例句1和例句2的相似度見式(2):A7,V/(',,&",)=^^L0^二-0.33(2)在上面的兩個(gè)例句中,例句1的核心詞"送往"和例句2的核心詞"送到"意思本來差不多,但以關(guān)鍵詞匹配的方法并不能匹配上,所以又引入了語義依存樹作為補(bǔ)充,如圖7和圖8。在此基礎(chǔ)上,例句1和例句2的語義相似度的計(jì)算公式見式(3):<formula>formulaseeoriginaldocumentpage7</formula>式中力『?為句子1和句子2有效語義搭配對(duì)匹配的總權(quán)重,PairCount/為句子1有效語義搭配對(duì)數(shù),PairCount/為句子2有效語義搭配對(duì)數(shù)。從上圖可以看出,句1中"送往"和句2中"送到"的語義都為903,這樣一來"送往"和送到自然就匹配上了。所以上例兩句中的語義相似度由公式(4)計(jì)算<formula>formulaseeoriginaldocumentpage7</formula>由于基于關(guān)鍵詞和基于語義的方法有著各自的優(yōu)缺點(diǎn),所以改進(jìn)后算法最后用下面的公式(5)確定句子之間的相似度<formula>formulaseeoriginaldocumentpage7</formula>本發(fā)明中,取A=0.5。二.編輯距離算法編輯距離算法是用來計(jì)算從原串(s)轉(zhuǎn)換到目標(biāo)串(t)所需要的最少的編輯操作數(shù)目,編輯操作有"插入"、"刪除"和"替換"三種。本發(fā)明所述編輯距離算法借鑒了車萬翔[65]利用改進(jìn)編輯距離方法計(jì)算中文句子的相似度的方法,以"愛吃蘋果"和"喜歡吃香蕉"為例,兩者的編輯距離如圖9所示。該方法的主要思想是以普通編輯距離算法為基礎(chǔ),采用詞語取代單個(gè)的漢字或字符作為基本的編輯單元參與運(yùn)算。同時(shí)使用了Hownet和同義詞詞林兩種語義資源,計(jì)算詞匯之間的語義距離,加入詞語的語義相似信息確定詞語之間的替換代價(jià),并且賦予不同編輯操作不同的權(quán)重。在相似度計(jì)算時(shí),該方法充分考慮了句子中每個(gè)詞的深層信息,使表面不同、深層意義相同的詞被挖掘出來,在不用經(jīng)過詞義消歧和句法分析的情況下,兼顧了詞匯的順序和語義等信息,使之更加符合中文句子相似度計(jì)算的要求。(l)HotNet語義詞典簡介計(jì)算語義相似度,需要一定的語義知識(shí)資源作為基礎(chǔ)。在漢語中,人們常用董振東和董強(qiáng)先生創(chuàng)建的知網(wǎng)(HowNet)作為語義知識(shí)資源。知網(wǎng)是一個(gè)以概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫,它是一個(gè)網(wǎng)狀的有機(jī)的知識(shí)系統(tǒng)。語義詞典是知網(wǎng)的基礎(chǔ)文件,在這個(gè)文件中每一個(gè)詞語的概念及其描述形成一個(gè)記錄,每一個(gè)記錄都主要包含4項(xiàng)內(nèi)容。其中每一項(xiàng)都由兩部分組成,中間以"="分隔。每一個(gè)"="的左側(cè)是數(shù)據(jù)的域名,右側(cè)是數(shù)據(jù)的值。它們排列如下NO.=詞或短語序號(hào)W_X=詞或短語G_X=詞或短語的詞性E_X=詞或短語的例子DEF=概念定義其中的W_X、G_X、E_X構(gòu)成每種語言的記錄,X用以描述記錄所代表語種,X為C則為漢語,為E則為英語。每個(gè)詞語由DEF來描述其概念定義,DEF的值由若干個(gè)義原及它們與主干詞之間的語義關(guān)系描述組成,義原是知網(wǎng)中最基本的、不易于再分割的意義的最小單位。在此使用HotNet語義辭典作為同義詞擴(kuò)展的資源。HotNet中同義詞的定義為具有相同的英語譯文(W_E)和語義定義(DEF)的詞匯。例如"我"和"俺",簡化詞條如下<table>tableseeoriginaldocumentpage8</column></row><table>可見,"我"和"俺"具有相同的英語譯文(W—E)"I"和語義定義(DEF)"firstPerson/我",是一對(duì)同義詞。表l中給出了使用HotNet進(jìn)行詞擴(kuò)展的一些例子。從中可以看出,使用HotNet進(jìn)行詞的擴(kuò)展,效果是比較理想的。表1HotNet進(jìn)行詞擴(kuò)展示例<table>tableseeoriginaldocumentpage8</column></row><table>(2)同義詞詞林的使用本發(fā)明中,編輯距離算法還用到了《同義詞詞林》,其基本思想就是利用詞林中對(duì)每個(gè)詞提供的語義編碼進(jìn)行兩個(gè)詞之間的語義距離計(jì)算。本發(fā)明中的《同義詞詞林》將詞的詞義逐級(jí)劃分為5層,描述了一個(gè)由上到下、由寬泛概念到具體詞義的語義分類體系,并將所收的詞按詞義分門別類組織在其中。每個(gè)漢語詞都按照其語義,賦予了一個(gè)或多個(gè)5位的語義代碼。與此分類體系相對(duì)應(yīng)的是一個(gè)詞義的編碼體系,描述如下〈詞義編碼>::=〈1層X2層X3層X4層X5層>〈1層>::=〈大寫英文字母>〈2層>::=〈小寫英文字母>〈3層>::=〈數(shù)字X數(shù)字〉〈4層>::=〈大寫英文字母>〈5層〉=〈數(shù)字X數(shù)字〉對(duì)于A,B兩詞之間的語義距離,只要查到他們的語義編碼,然后用公式(6)進(jìn)行計(jì)算^D/W(j,_S)=min^fo/(",6)(6)其中P,Q分別為A,B兩詞具有語義的集合。語義a,b之間的距離為dist(a,b)=2X(7-n)(7)其中,n為它們之間的語義代碼從第n層開始不同,全部相同語義距離為O。如"蘋果"Bh07A14,"香蕉"Bh07A34,"喜歡"Gb09A01,"愛"Gb09A01。用上面的公式可知Dist(蘋果,香蕉)二2,Dist(喜歡,愛)=0。從以上的操作可以看出利用詞林進(jìn)行語義距離計(jì)算相似度比較方便、快捷。下面以網(wǎng)絡(luò)監(jiān)管為例來對(duì)本發(fā)明的實(shí)施過程進(jìn)行描述。首先,在網(wǎng)絡(luò)監(jiān)控中心的主機(jī)上載入語義詞典和同義詞詞林,然后從網(wǎng)絡(luò)上獲取網(wǎng)絡(luò)內(nèi)的原始數(shù)據(jù)信息(即數(shù)據(jù)流);隨后通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其整體句法結(jié)構(gòu),得到語句的謂語中心詞,然后再利用依存文法分析器的分詞和詞性標(biāo)注功能分別得到語句有效成分序列并對(duì)語義詞典進(jìn)行擴(kuò)展更新,再通過本發(fā)明所在主機(jī)結(jié)合exUCL標(biāo)簽庫的標(biāo)引方法對(duì)所獲取的原始數(shù)據(jù)信息進(jìn)行分析,確定該原始數(shù)據(jù)信息在標(biāo)簽庫中對(duì)應(yīng)的標(biāo)題字段,確定后計(jì)算兩者相似度。對(duì)于網(wǎng)絡(luò)監(jiān)控來說,一般只需要監(jiān)控網(wǎng)絡(luò)的原始數(shù)據(jù)信息中是否出現(xiàn)違反規(guī)定的內(nèi)容,如法輪功、色情等內(nèi)容,因此,在計(jì)算語句相似度時(shí),只需要計(jì)算與監(jiān)控內(nèi)容接近的原始數(shù)據(jù)信息的相似度,如原始數(shù)據(jù)中出現(xiàn)了與法輪功接近的詞語,則計(jì)算該原始數(shù)據(jù)與法輪功的語句相似度,在此基礎(chǔ)上,網(wǎng)絡(luò)監(jiān)管人員可根據(jù)結(jié)果進(jìn)行相應(yīng)的操作,如斷網(wǎng)、向有關(guān)管理部門通報(bào)等等。在計(jì)算語句相似度的同時(shí),利用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)得到的結(jié)論進(jìn)行學(xué)習(xí)、訓(xùn)練以更新語義詞典和同義詞詞林。本發(fā)明中所述的神經(jīng)網(wǎng)絡(luò)是經(jīng)過系統(tǒng)建模后構(gòu)建出來的適合網(wǎng)絡(luò)應(yīng)用的神經(jīng)網(wǎng)絡(luò),使用時(shí)先進(jìn)行初始化,再對(duì)語句相似度的計(jì)算結(jié)果進(jìn)行訓(xùn)練。本發(fā)明還可以應(yīng)用到商品銷售的貨物驗(yàn)證系統(tǒng)中,銷售商只需要將商品的數(shù)量、編號(hào)、EPC和具體時(shí)間輸入到驗(yàn)證系統(tǒng)中,購買方即可查看商品的數(shù)據(jù)信息是否有效,從而判斷該商品是否是正品。9權(quán)利要求基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,包括以下步驟(1)載入分別帶有神經(jīng)網(wǎng)絡(luò)的語義詞典和同義詞詞林;(2)輸入完整的待分析語句;(3)利用依存文法分析器分析出語句的整體句法結(jié)構(gòu),然后對(duì)語句進(jìn)行分層,并獲取語句的有效成分序列;(4)根據(jù)分層及其有效成分序列,確定語句在exUCL標(biāo)簽庫中對(duì)應(yīng)的標(biāo)題字段;(5)判斷語句是否有相似詞對(duì),若有則計(jì)算語句的相似度,反之,則重新輸入新的待分析語句,再次進(jìn)行相似度計(jì)算。2.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,所述整體句法結(jié)構(gòu)的分層包括第一層語句的謂語中心詞,第二層謂語中心詞的有效支配成分。3.根據(jù)權(quán)利要求2所述的基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,所述第二層獲取的方法是利用依存算法分析器對(duì)語句進(jìn)行分詞和詞性標(biāo)注。4.根據(jù)權(quán)利要求3所述的基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,所述語句相似度計(jì)算包括對(duì)第一層進(jìn)行語義距離計(jì)算和對(duì)第二層進(jìn)行編輯距離計(jì)算。5.根據(jù)權(quán)利要求4所述的基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,所述語義距離計(jì)算公式如下<formula>formulaseeoriginaldocumentpage2</formula>6.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,所述語句相似度按照下列公式計(jì)算其中,<formula>formulaseeoriginaldocumentpage2</formula>7.根據(jù)權(quán)利要求1或6所述的基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,所述語句相似度計(jì)算完成后,還將計(jì)算結(jié)果發(fā)送至神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果輸入至語義詞典和同義詞詞林。全文摘要本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡(luò)和標(biāo)簽庫的語句相似度算法,其特征在于,包括以下步驟(1)載入分別帶有神經(jīng)網(wǎng)絡(luò)的語義詞典和同義詞詞林;(2)輸入完整的待分析語句;(3)利用依存文法分析器分析出語句的整體句法結(jié)構(gòu),然后對(duì)語句進(jìn)行分層,并獲取語句的有效成分序列;(4)根據(jù)分層及其有效成分序列,確定語句在exUCL標(biāo)簽庫中對(duì)應(yīng)的標(biāo)題字段;(5)判斷語句是否有相似詞對(duì),若有則計(jì)算語句的相似度,反之,則重新輸入新的待分析語句,再次進(jìn)行相似度計(jì)算。本發(fā)明結(jié)合了基于依存的語句相似度算法和編輯距離算法的優(yōu)點(diǎn),使計(jì)算精度大大提高。文檔編號(hào)G06F17/30GK101777042SQ20101002814公開日2010年7月14日申請日期2010年1月21日優(yōu)先權(quán)日2010年1月21日發(fā)明者王娟娟,邢玲,馬建國申請人:西南科技大學(xué)