一種基于漢語(yǔ)音位特征的文本查重方法與流程

文檔序號(hào)：11155497閱讀：579來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及屬于數(shù)據(jù)處理領(lǐng)域，具體涉及一種基于漢語(yǔ)音位特征的文本查重方法。
背景技術(shù)：
：文本查重是根據(jù)一定相似度模型從數(shù)據(jù)流中發(fā)現(xiàn)相重文本的過(guò)程。它在搜索引擎構(gòu)建、抄襲檢測(cè)、新聞分類等領(lǐng)域有廣泛的應(yīng)用。文本查重是一種特殊的文本過(guò)濾，過(guò)濾條件是目標(biāo)文本與源文本相似度大于閾值。傳統(tǒng)的文本查重方法基于兩種基礎(chǔ)技術(shù)：文本向量空間模型和文本指紋，前者解決相似性度量的問(wèn)題，后者優(yōu)化檢索。向量空間模型的作用是將無(wú)結(jié)構(gòu)的文本表示成計(jì)算機(jī)易處理的特征向量，文本間的相似性問(wèn)題隨之轉(zhuǎn)變成向量間距離的問(wèn)題。特征提取算法包括TF-IDF(TermFrequency-InverseDocumentFrequency)、詞頻方法、互信息方法、信息增益方法等。其中TF-IDF用關(guān)鍵詞的權(quán)重做特征，權(quán)重計(jì)算兼顧了關(guān)鍵詞在全局的重要性和在局部的頻率這兩種信息，使用廣泛，是經(jīng)典方法。有些應(yīng)用場(chǎng)合需修改TF-IDF的權(quán)重公式以優(yōu)化排序。針對(duì)中文，有些應(yīng)用在特征選取中考慮了詞頻，也考慮了標(biāo)點(diǎn)符號(hào)，并且將文本的位置因素加入在內(nèi)；一些應(yīng)用提出"動(dòng)詞中心詞"的概念，將文本中的部分動(dòng)詞組成動(dòng)詞序列作為一種特征；一些應(yīng)用用以中文句號(hào)為基礎(chǔ)的特征實(shí)現(xiàn)了大規(guī)模的新聞網(wǎng)頁(yè)查重。特征向量確定后，文本間的相似性可用某種空間距離來(lái)表示，如余弦距離、數(shù)量積、相關(guān)系數(shù)、指數(shù)相似系數(shù)、幾何平均最小、算數(shù)平均最小等。特征向量與距離公式配合，就可以進(jìn)行文本查重的計(jì)算。現(xiàn)實(shí)中某些應(yīng)用，如Google的搜索引擎對(duì)存儲(chǔ)空間和計(jì)算時(shí)間特別敏感，需要使用文本指紋技術(shù)。它將文本的特征向量通過(guò)Hash函數(shù)映射為一定字長(zhǎng)比如64bit的二進(jìn)制數(shù)，稱為指紋，文本的比較通過(guò)指紋進(jìn)行。長(zhǎng)度固定的指紋適合構(gòu)造指紋庫(kù)，可進(jìn)行快速檢索。從原始文本到特征向量、再到文本指紋是一個(gè)單向不可逆的信息減少的過(guò)程。64bit的指紋實(shí)際只保留了64維向量空間的方向信息。在各種指紋算法之中，Google的SimHash保留了較多信息，即向量間的相似性，可根據(jù)指紋間的海明距離反映文檔間的差異程度，因此優(yōu)于MD5等Hash算法，是主要使用的文本指紋技術(shù)。根據(jù)Google的經(jīng)驗(yàn)，64位SimHash值的海明距離在3-5之間可認(rèn)為是同一文本。中文文本的分詞是提取關(guān)鍵詞向量的前置步驟。分詞算法已非常成熟，基于統(tǒng)計(jì)的方法是其主流；與人工智能新技術(shù)結(jié)合的、基于大規(guī)模神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法是當(dāng)前的熱點(diǎn)。分詞算法至少是O(n2)的復(fù)雜度。定性地看，關(guān)鍵詞向量可以看做文本“含義”的一種統(tǒng)計(jì)表達(dá)，大部分文本處理應(yīng)用如摘要生成、倒排索引、機(jī)器翻譯等的后續(xù)計(jì)算需要對(duì)文本的含義作一定程度的理解，因此分詞的計(jì)算開銷是完全必要的。而在一些特殊應(yīng)用如盜版檢測(cè)中，文本查重、判斷是否相同文本是唯一重要的計(jì)算，“含義”并不是必須的。對(duì)這些應(yīng)用而言，分詞計(jì)算開銷是一個(gè)比較大的負(fù)擔(dān)，如能避免，將加快系統(tǒng)速度。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的問(wèn)題，并提供一種基于漢語(yǔ)音位特征的文本查重方法。本發(fā)明是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的：基于漢語(yǔ)音位特征的文本查重方法，包括如下步驟：S1:選取包括聲母、韻母和聲調(diào)在內(nèi)的音位特征，使其覆蓋漢語(yǔ)拼音標(biāo)準(zhǔn)下包括整體認(rèn)讀音節(jié)的所有情況；S2：遍歷待查重的兩個(gè)文檔中的所有字，分別得到每個(gè)文檔中各漢字的聲母、韻母和聲調(diào)在該文檔中的頻率，并分別將其作為聲母、韻母和聲調(diào)三個(gè)空間的向量；再求得兩個(gè)文檔在聲母、韻母和聲調(diào)三個(gè)空間的余弦距離；S3：基于得到的三個(gè)余弦距離，求得兩個(gè)文檔的相似度，并根據(jù)相似度閾值判斷兩個(gè)文檔是否重復(fù)。作為優(yōu)選，所述的S1中，音位特征具體為：聲母為標(biāo)準(zhǔn)的23個(gè)加上零聲母：{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none}，其中none表示零聲母；韻母為標(biāo)準(zhǔn)的24個(gè)加10個(gè)三拼韻母：{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan}；聲調(diào)為5種：陰、陽(yáng)、上、去、輕；根據(jù)“ü”去兩點(diǎn)的規(guī)則，除了nü、lü、nüe、lüe四個(gè)音節(jié)之外，都作“u”計(jì)。作為優(yōu)選，所述的S2中，針對(duì)每個(gè)文檔，求得兩個(gè)文檔在聲母、韻母和聲調(diào)三個(gè)空間的余弦距離的方法如下：設(shè)文檔d是漢字zk的序列，字長(zhǎng)n的文本為d＝(z1z2z3…zk…zn)其中zk∈Z，Z為漢字集；漢字zk的音位由聲母a、韻母b和聲調(diào)c組成；對(duì)多音字取其第一種發(fā)音，則zk＝(ak,bk,ck)，其中ak∈S,bk∈Y,ck∈T；S＝{s1,s2,s3,…si…s24},是聲母集合；Y＝{y1,y2,y3,…yi…y34},是韻母集合；T＝{t1,t2,t3,…t5},是聲調(diào)集合；再計(jì)算聲母si、韻母yi、聲調(diào)ti在文檔d中的頻率f(si,d)、f(yi,d)、f(ti,d)，計(jì)算公式為：其中I為指示函數(shù)，且函數(shù)值在參數(shù)表達(dá)式成立時(shí)為1，否則為0；將文檔d表示為三個(gè)特征向量的組合，其中：對(duì)于兩個(gè)待查重的文檔d1,d2，定義其在空間的余弦距離cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)分別如下：進(jìn)一步的，所述的S3中，待查重的文檔d1、d2間的相似度Similarity計(jì)算公式如下：Similarity＝αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)其中α、β和θ均為權(quán)重系數(shù)，且滿足α+β+θ＝1；權(quán)重系數(shù)α、β、θ計(jì)算公式如下：其中Hs、Hy、Ht是聲母、韻母、聲調(diào)的信息熵，計(jì)算公式如下：其中p(si)、p(yi)、p(ti)分別為第i個(gè)聲母si、韻母yi、聲調(diào)ti在文檔中出現(xiàn)的概率，分別通過(guò)對(duì)大語(yǔ)料統(tǒng)計(jì)的頻率值來(lái)近似。再進(jìn)一步的，所述的S3中，相似度閾值采用如下方法確定：利用包含多個(gè)文本的漢語(yǔ)語(yǔ)料D，首先對(duì)其摻入噪聲獲得語(yǔ)料D’；語(yǔ)料D＝{di}摻噪聲后得語(yǔ)料D’＝{di’}，對(duì)每對(duì)文本di與di’，提取文字音位的聲母、韻母和聲調(diào)成分，計(jì)算各成分頻率，獲得向量和之后計(jì)算它們?cè)赟、Y、T空間的夾角cos_s(di,di’)，cos_y(di,di’)和cos_t(di,di’)；按如下公式得一組Similarity參數(shù)的計(jì)算值：Similarityi＝α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)其中，α’、β’、θ’為權(quán)重系數(shù)估計(jì)值，通過(guò)將通過(guò)對(duì)大語(yǔ)料統(tǒng)計(jì)的頻率值近似得到的p(si)、p(yi)、p(ti)，代入α、β、θ計(jì)算公式后得到；最后統(tǒng)計(jì){Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi)，令相似度閾值gsimilairty為：gsimilairty＝min(Similarityi)+SD(Similarityi)。再進(jìn)一步的，所述的摻噪聲的流程如下：1)預(yù)先準(zhǔn)備包含隨機(jī)漢字的現(xiàn)代漢語(yǔ)文本的噪聲模板；2)對(duì)D中的文本d，獲取關(guān)鍵詞向量及其SimHash指紋u1；3)從噪聲模板中隨機(jī)取一個(gè)字z，選擇d文檔中一隨機(jī)位置，用z替換原文字；4)獲取d文檔的新指紋u2；5)計(jì)算u1和u2的海明距離H_dist，若H_dist<3，跳轉(zhuǎn)3)，循環(huán)；若H_dist＝＝3，轉(zhuǎn)6)，出循環(huán)；若H_dist>3，比較本次摻噪聲前的文本和摻噪聲后的文本的指紋哪個(gè)更接近3，取接近者為輸出文本，轉(zhuǎn)6)；6)若最終H_dist＝＝3，d的處理結(jié)束；否則，若累積嘗試次數(shù)小于上限，轉(zhuǎn)2)，重新開始文本d的摻噪聲處理；否則若嘗試次數(shù)大于上限，結(jié)束文本d的摻噪聲處理。再進(jìn)一步的，所述的摻噪聲的流程中，若摻入一個(gè)字的噪聲后導(dǎo)致海明距離躍遷超過(guò)預(yù)設(shè)值，此時(shí)回到原狀、重新嘗試，直至語(yǔ)料中所有文本d都得到了對(duì)應(yīng)的含噪聲為海明距離3的相似文本d’。傳統(tǒng)文本查重方法基于兩種基礎(chǔ)技術(shù)：以TF/IDF為代表的向量表示和以SimHash為代表的文本指紋。其弱點(diǎn)是必須先進(jìn)行耗時(shí)的分詞操作。本發(fā)明基于漢語(yǔ)“字”音位均勻的特點(diǎn)，提出基于音位的查重辦法。文本被表示為聲、韻、調(diào)三個(gè)空間的向量，相似性以余弦距離度量。相似度模型取三向量的線性組合，其系數(shù)由音位元素的信息熵算出。本發(fā)明的最大特點(diǎn)是不需進(jìn)行分詞，由于音位頻率的計(jì)算只需一次內(nèi)存訪問(wèn)的開銷，因此效率高于基于關(guān)鍵詞向量的方法。語(yǔ)言是含義和發(fā)音的綜合物。關(guān)鍵詞向量是對(duì)含義的統(tǒng)計(jì)表達(dá)而不顧及其發(fā)音；本發(fā)明方法利用了漢語(yǔ)的發(fā)音而不顧及其含義。定性地考慮，前者相當(dāng)于人通過(guò)默讀區(qū)分文檔，后者相當(dāng)于不識(shí)字的人通過(guò)辨音區(qū)分文檔。兩者都是可行的，但必定有各有特點(diǎn)?；谝粑坏姆椒▋?yōu)點(diǎn)是不需分詞，可以以較快速度實(shí)現(xiàn)一定精確率的過(guò)濾。它可以單獨(dú)使用，也可與其他方法聯(lián)合。在必要的場(chǎng)合，也可通過(guò)SimHash產(chǎn)生指紋以加快檢索。相對(duì)于傳統(tǒng)的技術(shù)，本發(fā)明在如下方面均進(jìn)行了優(yōu)化改進(jìn)：1.提取文本的音位信息，構(gòu)造特征向量，并計(jì)算余弦距離的方法。2.相似度計(jì)算公式。3.相似度計(jì)算中權(quán)重系數(shù)的基于信息熵的計(jì)算方法。4.以“關(guān)鍵詞向量+SimHash指紋”為參照的相似度閾值計(jì)算方法。5.基于音位特征判斷文檔是否相重的流程。附圖說(shuō)明圖1為本發(fā)明實(shí)施例中網(wǎng)絡(luò)盜版發(fā)現(xiàn)系統(tǒng)示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步闡述。中文是極其獨(dú)特的語(yǔ)言，“字”是獨(dú)一無(wú)二的“音/意”載體，是其他語(yǔ)言沒有的構(gòu)造單位。字的音位構(gòu)成規(guī)整一致，音節(jié)占用時(shí)長(zhǎng)和書寫占位大體平均。從字的二進(jìn)制表示(如Unicode)得到其拼音只需一次內(nèi)存訪問(wèn)的開銷，遠(yuǎn)低于最好的分詞算法。以字的音位統(tǒng)計(jì)信息作為特征進(jìn)行文本查重，符合漢字自身的規(guī)律。如能用音位信息代替關(guān)鍵詞，或作為關(guān)鍵詞向量方法的前置和補(bǔ)充，避免大量分詞計(jì)算，將提高速度。本發(fā)明提出了一套完整的利用音位信息的查重方法。對(duì)文本提取聲母、韻母、聲調(diào)三個(gè)特征向量，以余弦距離為基本度量；提出了查重操作的流程；提出了相似性公式和求取公式參數(shù)的方法。本發(fā)明采用的技術(shù)方案具體如下：一、音位特征選取國(guó)家漢語(yǔ)拼音標(biāo)準(zhǔn)規(guī)定了23個(gè)聲母、24個(gè)韻母和16個(gè)整體認(rèn)讀音節(jié)。本發(fā)明選用的音位特征范圍如下：1.聲母為標(biāo)準(zhǔn)的23個(gè)加上零聲母，共24個(gè)，即：{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none}none表示零聲母。2.韻母為標(biāo)準(zhǔn)的24個(gè)加10個(gè)三拼韻母：ia,ua,uo,uai,iao,ian,iang,uan,uang,iong，共34個(gè)，即：{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan}3.聲調(diào)為“陰、陽(yáng)、上、去、輕”5種不變。繼承“ü”去兩點(diǎn)的規(guī)則，除了nü、lü、nüe、lüe四個(gè)音節(jié)之外，都作“u”計(jì)。如此覆蓋漢語(yǔ)拼音標(biāo)準(zhǔn)下包括整體認(rèn)讀音節(jié)的所有情況，使從漢字到音位的映射可做到1字1聲1韻1調(diào)。設(shè)文本d是字zk的序列，如忽略標(biāo)點(diǎn)、數(shù)字等非漢字元素，字長(zhǎng)n的文本為d＝(z1z2z3…zk…zn)其中zk∈Z，Z為漢字集。漢字z的音位由聲母a、韻母b和聲調(diào)c組成。若對(duì)多音字取其第一種發(fā)音，則zk＝(ak,bk,ck)，其中ak∈S,bk∈Y,ck∈T。S＝{s1,s2,s3,…si…s24},是聲母集合；Y＝{y1,y2,y3,…yi…y34},是韻母集合；T＝{t1,t2,t3,…t5},是聲調(diào)集合。令f(si,d)、f(yi,d)、f(ti,d)是聲母si、韻母yi、聲調(diào)ti在文檔d中的頻率，即其中I為指示函數(shù)，函數(shù)值在參數(shù)表達(dá)式成立時(shí)為1，否則為0。則文檔d可表示為三個(gè)特征向量的組合，其中：設(shè)有兩個(gè)文檔d1,d2，可在空間各定義余弦距離如下：以余弦距離cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)為基礎(chǔ)可對(duì)d1、d2間的相似度作出基于音位的度量。二、相似度公式和系數(shù)計(jì)算文檔d1、d2間的相似度Similarity由以下公式計(jì)算：Similarity＝αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)其中α+β+θ＝1。查重計(jì)算中文本d1，d2相重的條件為：Similarity>gsimilairty，gsimilairty為相似度閾值。權(quán)重系數(shù)α、β、θ計(jì)算公式如下：其中Hs、Hy、Ht是聲母、韻母、聲調(diào)的信息熵，計(jì)算公式如下：其中p(si)、p(yi)、p(ti)分別為第i個(gè)聲母si、韻母yi、聲調(diào)ti在文本中出現(xiàn)的概率。它們可通過(guò)對(duì)大語(yǔ)料統(tǒng)計(jì)的頻率值來(lái)近似。設(shè)此近似的頻率值為p’(si)、p’(yi)、p’(ti)，依次代入α、β、θ計(jì)算公式中可得權(quán)重系數(shù)估計(jì)值α’、β’、θ’。三、閾值計(jì)算相似度公式的閾值gsimilairty的計(jì)算用傳統(tǒng)的“關(guān)鍵詞向量+SimHash指紋”辦法作為參照，以行業(yè)的經(jīng)驗(yàn)值、指紋海明距離3作為文檔相重的標(biāo)準(zhǔn)。具體做法是，用隨機(jī)字替換的辦法給源文本摻入噪聲，直至海明距離為閾值3為止，如此用大量文檔作訓(xùn)練，取結(jié)果的統(tǒng)計(jì)值。如包含多個(gè)文本的漢語(yǔ)語(yǔ)料為D，首先對(duì)其摻入噪聲獲得語(yǔ)料D’，摻噪聲的流程如下：1)預(yù)先準(zhǔn)備噪聲模板，這是一個(gè)包含隨機(jī)漢字的現(xiàn)代漢語(yǔ)文本。2)對(duì)D中文本d，獲取關(guān)鍵詞向量及其SimHash指紋u1。3)從噪聲模板中隨機(jī)取一個(gè)字z，選擇d文中一隨機(jī)位置，用z替換原文字。4)獲取d的新指紋u2。5)計(jì)算u1和u2的海明距離H_dist。若H_dist<3，跳轉(zhuǎn)3)，循環(huán)。若H_dist＝＝3，轉(zhuǎn)6)，出循環(huán)。若H_dist>3，比較本次摻噪聲前的文本和摻噪聲后的文本的指紋哪個(gè)更接近3，取接近者為輸出文本，轉(zhuǎn)6)。6)若最終H_dist＝＝3，d的處理結(jié)束。否則，若累積嘗試次數(shù)小于上限(如3000)，轉(zhuǎn)2)，文本d的摻噪聲處理重新開始；否則若嘗試次數(shù)大于上限，結(jié)束該摻噪聲處理。有時(shí)摻入一個(gè)字的噪聲會(huì)導(dǎo)致海明距離躍遷，比如從2跳到6，此時(shí)回到原狀、重新嘗試，直至語(yǔ)料中所有文本d都得到了對(duì)應(yīng)的含噪聲為海明距離3的相似文本d’。語(yǔ)料D＝{di}摻噪聲后得語(yǔ)料D’＝{di’}，對(duì)每對(duì)文本di與di’，提取文字音位的聲母、韻母和聲調(diào)成分，計(jì)算各成分頻率，獲得向量和之后計(jì)算它們?cè)赟、Y、T空間的夾角cos_s(di,di’)，cos_y(di,di’)和cos_t(di,di’)。按如下公式得一組Similarity參數(shù)的計(jì)算值：Similarityi＝α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)統(tǒng)計(jì){Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi)，令：gsimilairty＝min(Similarityi)+SD(Similarityi)4、查重操作流程已通過(guò)大語(yǔ)料統(tǒng)計(jì)獲得相似度公式系數(shù)的估計(jì)值α’、β’、θ’，通過(guò)“閾值計(jì)算”流程獲得參數(shù)gsimilairty。判斷文檔d1、d2是否相重的流程如下：1)對(duì)文檔d1，遍歷所有字zk，取每個(gè)字的聲、韻、調(diào)成分，計(jì)算其三個(gè)空間的向量2)對(duì)文檔d2，遍歷所有字zk，取每個(gè)字的聲、韻、調(diào)成分，計(jì)算其三個(gè)空間的向量3)求得余弦距離：4)求得d1、d2相似度Similarity＝α’cos_s(d1,d2)+β’cos_y(d1,d2)+θ’cos_t(d1,d2)5)如Similarity≥gsimilairty，則d1、d2相重。否則d1、d2不相重。下面通過(guò)給出本發(fā)明的一個(gè)實(shí)施例，使本領(lǐng)域技術(shù)人員能夠更好地理解本發(fā)明。實(shí)施例的基本步驟如前所述，不再贅述。對(duì)部分具體步驟和參數(shù)進(jìn)行進(jìn)一步說(shuō)明。實(shí)施例本實(shí)施例可用于如圖1所示互聯(lián)網(wǎng)盜版發(fā)現(xiàn)系統(tǒng)的前置過(guò)濾。出版社、研究單位等擁有大量文字著作權(quán)的機(jī)構(gòu)，其文字作品構(gòu)成原作庫(kù)；對(duì)其中源文本提取音位特征，保存于特征庫(kù)。網(wǎng)絡(luò)爬蟲連續(xù)獲取網(wǎng)絡(luò)文本，存入內(nèi)容庫(kù)。對(duì)其中內(nèi)容逐個(gè)提取音位信息，用本文方法進(jìn)行前置過(guò)濾，之后再作同一性(查重)檢測(cè)。同一性為正的未必構(gòu)成盜版，因此需繼續(xù)進(jìn)行違法性檢測(cè)，找到真正的侵權(quán)項(xiàng)目，將其送去取證并反饋給爬蟲以優(yōu)化其策略。網(wǎng)絡(luò)盜版行為猖獗，但在海量的文本流中涉嫌盜版的畢竟是少數(shù)，絕大部分是無(wú)關(guān)的。由于內(nèi)容庫(kù)文本數(shù)量巨大，系統(tǒng)效率很大程度取決于能否將這99％以上的無(wú)關(guān)文本快速排除，因此在精確率和速度之間，系統(tǒng)更關(guān)注速度；在精確率和召回率之間，系統(tǒng)更關(guān)注召回率。本發(fā)明的方法有很好速度和召回率，非常適合做前置過(guò)濾。對(duì)數(shù)據(jù)庫(kù)中的兩個(gè)待比較的文檔，判斷文檔d1、d2是否相重的流程如下：1)對(duì)文檔d1，遍歷所有字zk，取每個(gè)字的聲、韻、調(diào)成分，計(jì)算其三個(gè)空間的向量2)對(duì)文檔d2，遍歷所有字zk，取每個(gè)字的聲、韻、調(diào)成分，計(jì)算其三個(gè)空間的向量3)求得余弦距離：4)求得d1、d2相似度Similarity＝α’cos_s(d1,d2)+β’cos_y(d1,d2)+θ’cos_t(d1,d2)5)如Similarity≥gsimilairty，則d1、d2相重。否則d1、d2不相重。系數(shù)α’、β’、θ’計(jì)算辦法如下：對(duì)1,411,996篇、共481,065,247字搜狐實(shí)驗(yàn)室全網(wǎng)新聞?wù)Z料作音位統(tǒng)計(jì)，結(jié)果如表1-3：表1聲母頻率統(tǒng)計(jì)聲母bpmfdtnlgk頻率4.314％1.723％2.773％2.940％9.419％3.202％1.986％5.022％5.062％1.985％聲母hjqxzhchshrzc頻率4.365％8.121％3.382％6.185％6.337％3.461％7.218％2.331％3.497％1.639％聲母swynone頻率1.668％3.264％9.005％1.099％表2韻母頻率統(tǒng)計(jì)韻母ianguangiongangengingonguaiiaoian頻率1.877％0.631％0.033％3.686％3.202％4.040％4.456％0.136％1.741％4.304％韻母uanaieiuiaoouiuieueer頻率2.808％3.892％3.287％2.077％3.516％3.496％0.923％1.349％0.974％0.427％韻母aneninunvniauauoao頻率4.137％3.088％2.702％1.285％0.000％1.199％0.578％3.056％2.970％0.611％韻母eiuv頻率8.386％15.997％6.567％2.569％表3聲調(diào)頻率統(tǒng)計(jì)聲調(diào)yinyangshangquqing頻率21.775％21.200％17.134％35.816％4.075％用表中聲、韻、調(diào)頻率值的作為概率值的估計(jì)，得到Hs、Hy、Ht的估計(jì)值：Hs’＝4.3644；Hy’＝4.5300；Ht’＝2.1081；進(jìn)而得到模型系數(shù)α、β、θ的估計(jì)值：α’＝0.3967；β’＝0.4117；θ’＝0.1916。對(duì)gsimilairty的獲取辦法如下，選用包含925個(gè)文本共534,924漢字的現(xiàn)代漢語(yǔ)語(yǔ)料，命名為D，首先對(duì)其摻入噪聲獲得語(yǔ)料D’。摻噪聲的流程如下：1)預(yù)先準(zhǔn)備噪聲模板NoiseTemplate.txt，這是一個(gè)包含7000余字的現(xiàn)代漢語(yǔ)文本。2)對(duì)D中文本d，獲取關(guān)鍵詞向量及其SimHash指紋u1。3)從噪聲模板中隨機(jī)取一個(gè)字z，選擇d文中一隨機(jī)位置，用z替換原文字。4)獲取d的新指紋u2。5)計(jì)算u1和u2的海明距離H_dist。若H_dist<3，跳轉(zhuǎn)3)，循環(huán)。若H_dist＝＝3，轉(zhuǎn)6)，出循環(huán)。若H_dist>3，比較本次摻噪聲前的文本和摻噪聲后的文本的指紋哪個(gè)更接近3，取接近者為輸出文本，轉(zhuǎn)6)。6)若最終H_dist＝＝3，d的處理結(jié)束。否則，若累積嘗試次數(shù)小于上限3000，轉(zhuǎn)2)，文本d的處理重新開始；否則若嘗試次數(shù)大于上限，結(jié)束。若摻入一個(gè)字的噪聲會(huì)導(dǎo)致海明距離躍遷，比如從2跳到6，此時(shí)回到原狀、重新嘗試，直至語(yǔ)料中所有文本d都得到了對(duì)應(yīng)的含噪聲為海明距離3的相似文本d’。語(yǔ)料D＝{di|i＝1..925}摻噪聲后得語(yǔ)料D’＝{di’|i＝1..925}，對(duì)每對(duì)文本di與di’，提取文字音位的聲、韻、調(diào)成分，計(jì)算各成分頻率，獲得向量和之后計(jì)算它們?cè)赟、Y、T空間的夾角cos_s(di,di’)，cos_y(di,di’)和cos_t(di,di’)，并按如下公式得一組Similarity計(jì)算值：Similarityi＝α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)最終結(jié)果如表4：表4模型參數(shù)訓(xùn)練結(jié)果均值最大值最小值均方差cos_s0.9780.9920.9530.00174cos_y0.9790.9950.9320.00168cos_t0.9890.9920.9640.00044Similarity0.9810.9890.9620.00140得gsimilairty＝0.9634。利用上述gsimilairty對(duì)庫(kù)中的文本進(jìn)行比較，從而實(shí)現(xiàn)互聯(lián)網(wǎng)盜版發(fā)現(xiàn)系統(tǒng)的前置過(guò)濾，然后再進(jìn)行同一性檢測(cè)和違法性檢測(cè)，大大提高整體效率。以上所述的實(shí)施例只是本發(fā)明的一種較佳的方案，然其并非用以限制本發(fā)明。有關(guān)
技術(shù)領(lǐng)域：
的普通技術(shù)人員，在不脫離本發(fā)明的精神和范圍的情況下，還可以做出各種變化和變型。因此凡采取等同替換或等效變換的方式所獲得的技術(shù)方案，均落在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金哲凡;俞定國(guó);
技術(shù)所有人：浙江傳媒學(xué)院;
我是此專利的發(fā)明人

上一篇：針對(duì)多義項(xiàng)詞條的搜索方法及裝置與制造工藝
上一篇：信息推薦方法及裝置與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于漢語(yǔ)音位特征的文本查重方法與流程