本發(fā)明涉及屬于數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于漢語(yǔ)音位特征的文本查重方法。
背景技術(shù):
:文本查重是根據(jù)一定相似度模型從數(shù)據(jù)流中發(fā)現(xiàn)相重文本的過(guò)程。它在搜索引擎構(gòu)建、抄襲檢測(cè)、新聞分類等領(lǐng)域有廣泛的應(yīng)用。文本查重是一種特殊的文本過(guò)濾,過(guò)濾條件是目標(biāo)文本與源文本相似度大于閾值。傳統(tǒng)的文本查重方法基于兩種基礎(chǔ)技術(shù):文本向量空間模型和文本指紋,前者解決相似性度量的問(wèn)題,后者優(yōu)化檢索。向量空間模型的作用是將無(wú)結(jié)構(gòu)的文本表示成計(jì)算機(jī)易處理的特征向量,文本間的相似性問(wèn)題隨之轉(zhuǎn)變成向量間距離的問(wèn)題。特征提取算法包括TF-IDF(TermFrequency-InverseDocumentFrequency)、詞頻方法、互信息方法、信息增益方法等。其中TF-IDF用關(guān)鍵詞的權(quán)重做特征,權(quán)重計(jì)算兼顧了關(guān)鍵詞在全局的重要性和在局部的頻率這兩種信息,使用廣泛,是經(jīng)典方法。有些應(yīng)用場(chǎng)合需修改TF-IDF的權(quán)重公式以優(yōu)化排序。針對(duì)中文,有些應(yīng)用在特征選取中考慮了詞頻,也考慮了標(biāo)點(diǎn)符號(hào),并且將文本的位置因素加入在內(nèi);一些應(yīng)用提出"動(dòng)詞中心詞"的概念,將文本中的部分動(dòng)詞組成動(dòng)詞序列作為一種特征;一些應(yīng)用用以中文句號(hào)為基礎(chǔ)的特征實(shí)現(xiàn)了大規(guī)模的新聞網(wǎng)頁(yè)查重。特征向量確定后,文本間的相似性可用某種空間距離來(lái)表示,如余弦距離、數(shù)量積、相關(guān)系數(shù)、指數(shù)相似系數(shù)、幾何平均最小、算數(shù)平均最小等。特征向量與距離公式配合,就可以進(jìn)行文本查重的計(jì)算。現(xiàn)實(shí)中某些應(yīng)用,如Google的搜索引擎對(duì)存儲(chǔ)空間和計(jì)算時(shí)間特別敏感,需要使用文本指紋技術(shù)。它將文本的特征向量通過(guò)Hash函數(shù)映射為一定字長(zhǎng)比如64bit的二進(jìn)制數(shù),稱為指紋,文本的比較通過(guò)指紋進(jìn)行。長(zhǎng)度固定的指紋適合構(gòu)造指紋庫(kù),可進(jìn)行快速檢索。從原始文本到特征向量、再到文本指紋是一個(gè)單向不可逆的信息減少的過(guò)程。64bit的指紋實(shí)際只保留了64維向量空間的方向信息。在各種指紋算法之中,Google的SimHash保留了較多信息,即向量間的相似性,可根據(jù)指紋間的海明距離反映文檔間的差異程度,因此優(yōu)于MD5等Hash算法,是主要使用的文本指紋技術(shù)。根據(jù)Google的經(jīng)驗(yàn),64位SimHash值的海明距離在3-5之間可認(rèn)為是同一文本。中文文本的分詞是提取關(guān)鍵詞向量的前置步驟。分詞算法已非常成熟,基于統(tǒng)計(jì)的方法是其主流;與人工智能新技術(shù)結(jié)合的、基于大規(guī)模神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法是當(dāng)前的熱點(diǎn)。分詞算法至少是O(n2)的復(fù)雜度。定性地看,關(guān)鍵詞向量可以看做文本“含義”的一種統(tǒng)計(jì)表達(dá),大部分文本處理應(yīng)用如摘要生成、倒排索引、機(jī)器翻譯等的后續(xù)計(jì)算需要對(duì)文本的含義作一定程度的理解,因此分詞的計(jì)算開銷是完全必要的。而在一些特殊應(yīng)用如盜版檢測(cè)中,文本查重、判斷是否相同文本是唯一重要的計(jì)算,“含義”并不是必須的。對(duì)這些應(yīng)用而言,分詞計(jì)算開銷是一個(gè)比較大的負(fù)擔(dān),如能避免,將加快系統(tǒng)速度。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的問(wèn)題,并提供一種基于漢語(yǔ)音位特征的文本查重方法。本發(fā)明是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:基于漢語(yǔ)音位特征的文本查重方法,包括如下步驟:S1:選取包括聲母、韻母和聲調(diào)在內(nèi)的音位特征,使其覆蓋漢語(yǔ)拼音標(biāo)準(zhǔn)下包括整體認(rèn)讀音節(jié)的所有情況;S2:遍歷待查重的兩個(gè)文檔中的所有字,分別得到每個(gè)文檔中各漢字的聲母、韻母和聲調(diào)在該文檔中的頻率,并分別將其作為聲母、韻母和聲調(diào)三個(gè)空間的向量;再求得兩個(gè)文檔在聲母、韻母和聲調(diào)三個(gè)空間的余弦距離;S3:基于得到的三個(gè)余弦距離,求得兩個(gè)文檔的相似度,并根據(jù)相似度閾值判斷兩個(gè)文檔是否重復(fù)。作為優(yōu)選,所述的S1中,音位特征具體為:聲母為標(biāo)準(zhǔn)的23個(gè)加上零聲母:{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none},其中none表示零聲母;韻母為標(biāo)準(zhǔn)的24個(gè)加10個(gè)三拼韻母:{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan};聲調(diào)為5種:陰、陽(yáng)、上、去、輕;根據(jù)“ü”去兩點(diǎn)的規(guī)則,除了nü、lü、nüe、lüe四個(gè)音節(jié)之外,都作“u”計(jì)。作為優(yōu)選,所述的S2中,針對(duì)每個(gè)文檔,求得兩個(gè)文檔在聲母、韻母和聲調(diào)三個(gè)空間的余弦距離的方法如下:設(shè)文檔d是漢字zk的序列,字長(zhǎng)n的文本為d=(z1z2z3…zk…zn)其中zk∈Z,Z為漢字集;漢字zk的音位由聲母a、韻母b和聲調(diào)c組成;對(duì)多音字取其第一種發(fā)音,則zk=(ak,bk,ck),其中ak∈S,bk∈Y,ck∈T;S={s1,s2,s3,…si…s24},是聲母集合;Y={y1,y2,y3,…yi…y34},是韻母集合;T={t1,t2,t3,…t5},是聲調(diào)集合;再計(jì)算聲母si、韻母yi、聲調(diào)ti在文檔d中的頻率f(si,d)、f(yi,d)、f(ti,d),計(jì)算公式為:其中I為指示函數(shù),且函數(shù)值在參數(shù)表達(dá)式成立時(shí)為1,否則為0;將文檔d表示為三個(gè)特征向量的組合,其中:對(duì)于兩個(gè)待查重的文檔d1,d2,定義其在空間的余弦距離cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)分別如下:進(jìn)一步的,所述的S3中,待查重的文檔d1、d2間的相似度Similarity計(jì)算公式如下:Similarity=αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)其中α、β和θ均為權(quán)重系數(shù),且滿足α+β+θ=1;權(quán)重系數(shù)α、β、θ計(jì)算公式如下:其中Hs、Hy、Ht是聲母、韻母、聲調(diào)的信息熵,計(jì)算公式如下:其中p(si)、p(yi)、p(ti)分別為第i個(gè)聲母si、韻母yi、聲調(diào)ti在文檔中出現(xiàn)的概率,分別通過(guò)對(duì)大語(yǔ)料統(tǒng)計(jì)的頻率值來(lái)近似。再進(jìn)一步的,所述的S3中,相似度閾值采用如下方法確定:利用包含多個(gè)文本的漢語(yǔ)語(yǔ)料D,首先對(duì)其摻入噪聲獲得語(yǔ)料D’;語(yǔ)料D={di}摻噪聲后得語(yǔ)料D’={di’},對(duì)每對(duì)文本di與di’,提取文字音位的聲母、韻母和聲調(diào)成分,計(jì)算各成分頻率,獲得向量和之后計(jì)算它們?cè)赟、Y、T空間的夾角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’);按如下公式得一組Similarity參數(shù)的計(jì)算值:Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)其中,α’、β’、θ’為權(quán)重系數(shù)估計(jì)值,通過(guò)將通過(guò)對(duì)大語(yǔ)料統(tǒng)計(jì)的頻率值近似得到的p(si)、p(yi)、p(ti),代入α、β、θ計(jì)算公式后得到;最后統(tǒng)計(jì){Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi),令相似度閾值gsimilairty為:gsimilairty=min(Similarityi)+SD(Similarityi)。再進(jìn)一步的,所述的摻噪聲的流程如下:1)預(yù)先準(zhǔn)備包含隨機(jī)漢字的現(xiàn)代漢語(yǔ)文本的噪聲模板;2)對(duì)D中的文本d,獲取關(guān)鍵詞向量及其SimHash指紋u1;3)從噪聲模板中隨機(jī)取一個(gè)字z,選擇d文檔中一隨機(jī)位置,用z替換原文字;4)獲取d文檔的新指紋u2;5)計(jì)算u1和u2的海明距離H_dist,若H_dist<3,跳轉(zhuǎn)3),循環(huán);若H_dist==3,轉(zhuǎn)6),出循環(huán);若H_dist>3,比較本次摻噪聲前的文本和摻噪聲后的文本的指紋哪個(gè)更接近3,取接近者為輸出文本,轉(zhuǎn)6);6)若最終H_dist==3,d的處理結(jié)束;否則,若累積嘗試次數(shù)小于上限,轉(zhuǎn)2),重新開始文本d的摻噪聲處理;否則若嘗試次數(shù)大于上限,結(jié)束文本d的摻噪聲處理。再進(jìn)一步的,所述的摻噪聲的流程中,若摻入一個(gè)字的噪聲后導(dǎo)致海明距離躍遷超過(guò)預(yù)設(shè)值,此時(shí)回到原狀、重新嘗試,直至語(yǔ)料中所有文本d都得到了對(duì)應(yīng)的含噪聲為海明距離3的相似文本d’。傳統(tǒng)文本查重方法基于兩種基礎(chǔ)技術(shù):以TF/IDF為代表的向量表示和以SimHash為代表的文本指紋。其弱點(diǎn)是必須先進(jìn)行耗時(shí)的分詞操作。本發(fā)明基于漢語(yǔ)“字”音位均勻的特點(diǎn),提出基于音位的查重辦法。文本被表示為聲、韻、調(diào)三個(gè)空間的向量,相似性以余弦距離度量。相似度模型取三向量的線性組合,其系數(shù)由音位元素的信息熵算出。本發(fā)明的最大特點(diǎn)是不需進(jìn)行分詞,由于音位頻率的計(jì)算只需一次內(nèi)存訪問(wèn)的開銷,因此效率高于基于關(guān)鍵詞向量的方法。語(yǔ)言是含義和發(fā)音的綜合物。關(guān)鍵詞向量是對(duì)含義的統(tǒng)計(jì)表達(dá)而不顧及其發(fā)音;本發(fā)明方法利用了漢語(yǔ)的發(fā)音而不顧及其含義。定性地考慮,前者相當(dāng)于人通過(guò)默讀區(qū)分文檔,后者相當(dāng)于不識(shí)字的人通過(guò)辨音區(qū)分文檔。兩者都是可行的,但必定有各有特點(diǎn)?;谝粑坏姆椒▋?yōu)點(diǎn)是不需分詞,可以以較快速度實(shí)現(xiàn)一定精確率的過(guò)濾。它可以單獨(dú)使用,也可與其他方法聯(lián)合。在必要的場(chǎng)合,也可通過(guò)SimHash產(chǎn)生指紋以加快檢索。相對(duì)于傳統(tǒng)的技術(shù),本發(fā)明在如下方面均進(jìn)行了優(yōu)化改進(jìn):1.提取文本的音位信息,構(gòu)造特征向量,并計(jì)算余弦距離的方法。2.相似度計(jì)算公式。3.相似度計(jì)算中權(quán)重系數(shù)的基于信息熵的計(jì)算方法。4.以“關(guān)鍵詞向量+SimHash指紋”為參照的相似度閾值計(jì)算方法。5.基于音位特征判斷文檔是否相重的流程。附圖說(shuō)明圖1為本發(fā)明實(shí)施例中網(wǎng)絡(luò)盜版發(fā)現(xiàn)系統(tǒng)示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步闡述。中文是極其獨(dú)特的語(yǔ)言,“字”是獨(dú)一無(wú)二的“音/意”載體,是其他語(yǔ)言沒有的構(gòu)造單位。字的音位構(gòu)成規(guī)整一致,音節(jié)占用時(shí)長(zhǎng)和書寫占位大體平均。從字的二進(jìn)制表示(如Unicode)得到其拼音只需一次內(nèi)存訪問(wèn)的開銷,遠(yuǎn)低于最好的分詞算法。以字的音位統(tǒng)計(jì)信息作為特征進(jìn)行文本查重,符合漢字自身的規(guī)律。如能用音位信息代替關(guān)鍵詞,或作為關(guān)鍵詞向量方法的前置和補(bǔ)充,避免大量分詞計(jì)算,將提高速度。本發(fā)明提出了一套完整的利用音位信息的查重方法。對(duì)文本提取聲母、韻母、聲調(diào)三個(gè)特征向量,以余弦距離為基本度量;提出了查重操作的流程;提出了相似性公式和求取公式參數(shù)的方法。本發(fā)明采用的技術(shù)方案具體如下:一、音位特征選取國(guó)家漢語(yǔ)拼音標(biāo)準(zhǔn)規(guī)定了23個(gè)聲母、24個(gè)韻母和16個(gè)整體認(rèn)讀音節(jié)。本發(fā)明選用的音位特征范圍如下:1.聲母為標(biāo)準(zhǔn)的23個(gè)加上零聲母,共24個(gè),即:{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none}none表示零聲母。2.韻母為標(biāo)準(zhǔn)的24個(gè)加10個(gè)三拼韻母:ia,ua,uo,uai,iao,ian,iang,uan,uang,iong,共34個(gè),即:{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan}3.聲調(diào)為“陰、陽(yáng)、上、去、輕”5種不變。繼承“ü”去兩點(diǎn)的規(guī)則,除了nü、lü、nüe、lüe四個(gè)音節(jié)之外,都作“u”計(jì)。如此覆蓋漢語(yǔ)拼音標(biāo)準(zhǔn)下包括整體認(rèn)讀音節(jié)的所有情況,使從漢字到音位的映射可做到1字1聲1韻1調(diào)。設(shè)文本d是字zk的序列,如忽略標(biāo)點(diǎn)、數(shù)字等非漢字元素,字長(zhǎng)n的文本為d=(z1z2z3…zk…zn)其中zk∈Z,Z為漢字集。漢字z的音位由聲母a、韻母b和聲調(diào)c組成。若對(duì)多音字取其第一種發(fā)音,則zk=(ak,bk,ck),其中ak∈S,bk∈Y,ck∈T。S={s1,s2,s3,…si…s24},是聲母集合;Y={y1,y2,y3,…yi…y34},是韻母集合;T={t1,t2,t3,…t5},是聲調(diào)集合。令f(si,d)、f(yi,d)、f(ti,d)是聲母si、韻母yi、聲調(diào)ti在文檔d中的頻率,即其中I為指示函數(shù),函數(shù)值在參數(shù)表達(dá)式成立時(shí)為1,否則為0。則文檔d可表示為三個(gè)特征向量的組合,其中:設(shè)有兩個(gè)文檔d1,d2,可在空間各定義余弦距離如下:以余弦距離cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)為基礎(chǔ)可對(duì)d1、d2間的相似度作出基于音位的度量。二、相似度公式和系數(shù)計(jì)算文檔d1、d2間的相似度Similarity由以下公式計(jì)算:Similarity=αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)其中α+β+θ=1。查重計(jì)算中文本d1,d2相重的條件為:Similarity>gsimilairty,gsimilairty為相似度閾值。權(quán)重系數(shù)α、β、θ計(jì)算公式如下:其中Hs、Hy、Ht是聲母、韻母、聲調(diào)的信息熵,計(jì)算公式如下:其中p(si)、p(yi)、p(ti)分別為第i個(gè)聲母si、韻母yi、聲調(diào)ti在文本中出現(xiàn)的概率。它們可通過(guò)對(duì)大語(yǔ)料統(tǒng)計(jì)的頻率值來(lái)近似。設(shè)此近似的頻率值為p’(si)、p’(yi)、p’(ti),依次代入α、β、θ計(jì)算公式中可得權(quán)重系數(shù)估計(jì)值α’、β’、θ’。三、閾值計(jì)算相似度公式的閾值gsimilairty的計(jì)算用傳統(tǒng)的“關(guān)鍵詞向量+SimHash指紋”辦法作為參照,以行業(yè)的經(jīng)驗(yàn)值、指紋海明距離3作為文檔相重的標(biāo)準(zhǔn)。具體做法是,用隨機(jī)字替換的辦法給源文本摻入噪聲,直至海明距離為閾值3為止,如此用大量文檔作訓(xùn)練,取結(jié)果的統(tǒng)計(jì)值。如包含多個(gè)文本的漢語(yǔ)語(yǔ)料為D,首先對(duì)其摻入噪聲獲得語(yǔ)料D’,摻噪聲的流程如下:1)預(yù)先準(zhǔn)備噪聲模板,這是一個(gè)包含隨機(jī)漢字的現(xiàn)代漢語(yǔ)文本。2)對(duì)D中文本d,獲取關(guān)鍵詞向量及其SimHash指紋u1。3)從噪聲模板中隨機(jī)取一個(gè)字z,選擇d文中一隨機(jī)位置,用z替換原文字。4)獲取d的新指紋u2。5)計(jì)算u1和u2的海明距離H_dist。若H_dist<3,跳轉(zhuǎn)3),循環(huán)。若H_dist==3,轉(zhuǎn)6),出循環(huán)。若H_dist>3,比較本次摻噪聲前的文本和摻噪聲后的文本的指紋哪個(gè)更接近3,取接近者為輸出文本,轉(zhuǎn)6)。6)若最終H_dist==3,d的處理結(jié)束。否則,若累積嘗試次數(shù)小于上限(如3000),轉(zhuǎn)2),文本d的摻噪聲處理重新開始;否則若嘗試次數(shù)大于上限,結(jié)束該摻噪聲處理。有時(shí)摻入一個(gè)字的噪聲會(huì)導(dǎo)致海明距離躍遷,比如從2跳到6,此時(shí)回到原狀、重新嘗試,直至語(yǔ)料中所有文本d都得到了對(duì)應(yīng)的含噪聲為海明距離3的相似文本d’。語(yǔ)料D={di}摻噪聲后得語(yǔ)料D’={di’},對(duì)每對(duì)文本di與di’,提取文字音位的聲母、韻母和聲調(diào)成分,計(jì)算各成分頻率,獲得向量和之后計(jì)算它們?cè)赟、Y、T空間的夾角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’)。按如下公式得一組Similarity參數(shù)的計(jì)算值:Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)統(tǒng)計(jì){Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi),令:gsimilairty=min(Similarityi)+SD(Similarityi)4、查重操作流程已通過(guò)大語(yǔ)料統(tǒng)計(jì)獲得相似度公式系數(shù)的估計(jì)值α’、β’、θ’,通過(guò)“閾值計(jì)算”流程獲得參數(shù)gsimilairty。判斷文檔d1、d2是否相重的流程如下:1)對(duì)文檔d1,遍歷所有字zk,取每個(gè)字的聲、韻、調(diào)成分,計(jì)算其三個(gè)空間的向量2)對(duì)文檔d2,遍歷所有字zk,取每個(gè)字的聲、韻、調(diào)成分,計(jì)算其三個(gè)空間的向量3)求得余弦距離:4)求得d1、d2相似度Similarity=α’cos_s(d1,d2)+β’cos_y(d1,d2)+θ’cos_t(d1,d2)5)如Similarity≥gsimilairty,則d1、d2相重。否則d1、d2不相重。下面通過(guò)給出本發(fā)明的一個(gè)實(shí)施例,使本領(lǐng)域技術(shù)人員能夠更好地理解本發(fā)明。實(shí)施例的基本步驟如前所述,不再贅述。對(duì)部分具體步驟和參數(shù)進(jìn)行進(jìn)一步說(shuō)明。實(shí)施例本實(shí)施例可用于如圖1所示互聯(lián)網(wǎng)盜版發(fā)現(xiàn)系統(tǒng)的前置過(guò)濾。出版社、研究單位等擁有大量文字著作權(quán)的機(jī)構(gòu),其文字作品構(gòu)成原作庫(kù);對(duì)其中源文本提取音位特征,保存于特征庫(kù)。網(wǎng)絡(luò)爬蟲連續(xù)獲取網(wǎng)絡(luò)文本,存入內(nèi)容庫(kù)。對(duì)其中內(nèi)容逐個(gè)提取音位信息,用本文方法進(jìn)行前置過(guò)濾,之后再作同一性(查重)檢測(cè)。同一性為正的未必構(gòu)成盜版,因此需繼續(xù)進(jìn)行違法性檢測(cè),找到真正的侵權(quán)項(xiàng)目,將其送去取證并反饋給爬蟲以優(yōu)化其策略。網(wǎng)絡(luò)盜版行為猖獗,但在海量的文本流中涉嫌盜版的畢竟是少數(shù),絕大部分是無(wú)關(guān)的。由于內(nèi)容庫(kù)文本數(shù)量巨大,系統(tǒng)效率很大程度取決于能否將這99%以上的無(wú)關(guān)文本快速排除,因此在精確率和速度之間,系統(tǒng)更關(guān)注速度;在精確率和召回率之間,系統(tǒng)更關(guān)注召回率。本發(fā)明的方法有很好速度和召回率,非常適合做前置過(guò)濾。對(duì)數(shù)據(jù)庫(kù)中的兩個(gè)待比較的文檔,判斷文檔d1、d2是否相重的流程如下:1)對(duì)文檔d1,遍歷所有字zk,取每個(gè)字的聲、韻、調(diào)成分,計(jì)算其三個(gè)空間的向量2)對(duì)文檔d2,遍歷所有字zk,取每個(gè)字的聲、韻、調(diào)成分,計(jì)算其三個(gè)空間的向量3)求得余弦距離:4)求得d1、d2相似度Similarity=α’cos_s(d1,d2)+β’cos_y(d1,d2)+θ’cos_t(d1,d2)5)如Similarity≥gsimilairty,則d1、d2相重。否則d1、d2不相重。系數(shù)α’、β’、θ’計(jì)算辦法如下:對(duì)1,411,996篇、共481,065,247字搜狐實(shí)驗(yàn)室全網(wǎng)新聞?wù)Z料作音位統(tǒng)計(jì),結(jié)果如表1-3:表1聲母頻率統(tǒng)計(jì)聲母bpmfdtnlgk頻率4.314%1.723%2.773%2.940%9.419%3.202%1.986%5.022%5.062%1.985%聲母hjqxzhchshrzc頻率4.365%8.121%3.382%6.185%6.337%3.461%7.218%2.331%3.497%1.639%聲母swynone頻率1.668%3.264%9.005%1.099%表2韻母頻率統(tǒng)計(jì)韻母ianguangiongangengingonguaiiaoian頻率1.877%0.631%0.033%3.686%3.202%4.040%4.456%0.136%1.741%4.304%韻母uanaieiuiaoouiuieueer頻率2.808%3.892%3.287%2.077%3.516%3.496%0.923%1.349%0.974%0.427%韻母aneninunvniauauoao頻率4.137%3.088%2.702%1.285%0.000%1.199%0.578%3.056%2.970%0.611%韻母eiuv頻率8.386%15.997%6.567%2.569%表3聲調(diào)頻率統(tǒng)計(jì)聲調(diào)yinyangshangquqing頻率21.775%21.200%17.134%35.816%4.075%用表中聲、韻、調(diào)頻率值的作為概率值的估計(jì),得到Hs、Hy、Ht的估計(jì)值:Hs’=4.3644;Hy’=4.5300;Ht’=2.1081;進(jìn)而得到模型系數(shù)α、β、θ的估計(jì)值:α’=0.3967;β’=0.4117;θ’=0.1916。對(duì)gsimilairty的獲取辦法如下,選用包含925個(gè)文本共534,924漢字的現(xiàn)代漢語(yǔ)語(yǔ)料,命名為D,首先對(duì)其摻入噪聲獲得語(yǔ)料D’。摻噪聲的流程如下:1)預(yù)先準(zhǔn)備噪聲模板NoiseTemplate.txt,這是一個(gè)包含7000余字的現(xiàn)代漢語(yǔ)文本。2)對(duì)D中文本d,獲取關(guān)鍵詞向量及其SimHash指紋u1。3)從噪聲模板中隨機(jī)取一個(gè)字z,選擇d文中一隨機(jī)位置,用z替換原文字。4)獲取d的新指紋u2。5)計(jì)算u1和u2的海明距離H_dist。若H_dist<3,跳轉(zhuǎn)3),循環(huán)。若H_dist==3,轉(zhuǎn)6),出循環(huán)。若H_dist>3,比較本次摻噪聲前的文本和摻噪聲后的文本的指紋哪個(gè)更接近3,取接近者為輸出文本,轉(zhuǎn)6)。6)若最終H_dist==3,d的處理結(jié)束。否則,若累積嘗試次數(shù)小于上限3000,轉(zhuǎn)2),文本d的處理重新開始;否則若嘗試次數(shù)大于上限,結(jié)束。若摻入一個(gè)字的噪聲會(huì)導(dǎo)致海明距離躍遷,比如從2跳到6,此時(shí)回到原狀、重新嘗試,直至語(yǔ)料中所有文本d都得到了對(duì)應(yīng)的含噪聲為海明距離3的相似文本d’。語(yǔ)料D={di|i=1..925}摻噪聲后得語(yǔ)料D’={di’|i=1..925},對(duì)每對(duì)文本di與di’,提取文字音位的聲、韻、調(diào)成分,計(jì)算各成分頻率,獲得向量和之后計(jì)算它們?cè)赟、Y、T空間的夾角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’),并按如下公式得一組Similarity計(jì)算值:Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)最終結(jié)果如表4:表4模型參數(shù)訓(xùn)練結(jié)果均值最大值最小值均方差cos_s0.9780.9920.9530.00174cos_y0.9790.9950.9320.00168cos_t0.9890.9920.9640.00044Similarity0.9810.9890.9620.00140得gsimilairty=0.9634。利用上述gsimilairty對(duì)庫(kù)中的文本進(jìn)行比較,從而實(shí)現(xiàn)互聯(lián)網(wǎng)盜版發(fā)現(xiàn)系統(tǒng)的前置過(guò)濾,然后再進(jìn)行同一性檢測(cè)和違法性檢測(cè),大大提高整體效率。以上所述的實(shí)施例只是本發(fā)明的一種較佳的方案,然其并非用以限制本發(fā)明。有關(guān)
技術(shù)領(lǐng)域:
的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型。因此凡采取等同替換或等效變換的方式所獲得的技術(shù)方案,均落在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁(yè)1 2 3