国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法

      文檔序號(hào):6361718閱讀:522來源:國知局
      專利名稱:一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法。
      背景技術(shù)
      網(wǎng)絡(luò)已經(jīng)進(jìn)入了 Web2.0的時(shí)代,以用戶為主導(dǎo)、由用戶提供和分享資源的網(wǎng)絡(luò)應(yīng)用迅速發(fā)展,每天都會(huì)出現(xiàn)海量的新信息,如何獲取其中真正所需的內(nèi)容卻是一大難題。為有效地管理,過濾及使用這些資源,基于內(nèi)容的文檔管理逐漸成為信息系統(tǒng)領(lǐng)域占主導(dǎo)地位的一類技術(shù),稱之為信息檢索(information retrieval, IR)。文本分類是信息檢索技術(shù)的重要組成部分,指的是在預(yù)先給定的類別集合下,根據(jù)自然語言文本的內(nèi)容判定文本的類別。處理這些分類數(shù)據(jù)往往需要應(yīng)用文本挖掘技術(shù),涉及文本相似度計(jì)算、聚類、分類等方面。許多學(xué)者提出了很多方法,并取得了不錯(cuò)的效果。 然而,網(wǎng)絡(luò)上還存在有大量的以文本片段形式存在的短文本,如論壇的發(fā)帖留言、搜索結(jié)果的網(wǎng)頁片段、微博等。這些短文本的基本特點(diǎn)是組合靈活、表述不規(guī)范、內(nèi)容較短、數(shù)據(jù)量大、容易創(chuàng)作與發(fā)布,因而成為人們發(fā)布、獲取和交流信息的重要手段。這些文本數(shù)據(jù)中包含各種觀點(diǎn)與立場,話題涉及社會(huì)的方方面面。對這些數(shù)據(jù)進(jìn)行主題跟蹤發(fā)現(xiàn)、分類、情感判斷將有著廣泛的應(yīng)用和前景,如社會(huì)輿情監(jiān)控、情感分析、商業(yè)調(diào)查。同樣,也正因?yàn)檫@些短文本組合靈活、表述不規(guī)范,造成對短文進(jìn)行處理也變得困難。比如簡寫方式‘發(fā)改委’和‘發(fā)展改革委員會(huì)’,若用傳統(tǒng)的數(shù)據(jù)挖掘相似度算法,計(jì)算結(jié)果為0,因?yàn)槎邲]有詞匯交集,而實(shí)際上二者在語義上相同。另外,詞匯的語義與其所處環(huán)境有關(guān),比如‘蘋果4代’與‘4袋蘋果’,兩個(gè)短語中都有的‘蘋果’ 一詞,使用傳統(tǒng)算法計(jì)算結(jié)果相似度為0. 67,但二者風(fēng)馬牛不相及。面對這些問題,傳統(tǒng)的文本分類與挖掘方法不能令人滿意。特別在中文領(lǐng)域,情況更為復(fù)雜,不僅要解決文本處理的基本問題,還需先對文本做準(zhǔn)確的分詞?,F(xiàn)有的中文分詞工具對長文本的分詞取得不錯(cuò)的效果。但在網(wǎng)絡(luò)文本分詞方面還有待改進(jìn),例如‘有木有銀請我7飯’(有沒有人請我吃飯),通過ICTCLAS分詞結(jié)果處理的分詞結(jié)果是‘有木有銀請我7飯’,與實(shí)際意思相差很大,對進(jìn)一步所要做的語義挖掘很不利。另外,以SVM、KNN為代表的分類算法就本質(zhì)而言,其訓(xùn)練數(shù)據(jù)方式都是通過窮舉法來對一個(gè)類別中所出現(xiàn)的詞組統(tǒng)計(jì)來進(jìn)行訓(xùn)練和分類。然而,實(shí)際上與某個(gè)類別相關(guān)的詞組可以是多義、形式多樣的和無窮多的,無法通過有限的訓(xùn)練數(shù)據(jù)窮舉完。以軍事類別為例,‘F35、殲9、殲10…’都是與軍事有關(guān)的詞組,顯然這樣的詞組有無窮多,因而造成SVM、KNN這種分類算法需要大量的訓(xùn)練數(shù)據(jù),而且無法處理在訓(xùn)練數(shù)據(jù)中未出現(xiàn)的和新生的詞組。然而,雖然這些詞組可以層出不窮,但都有一定的知識(shí)關(guān)系存在,如‘F35、殲9、殲10…’都是‘戰(zhàn)斗機(jī)’,而‘戰(zhàn)斗機(jī)’是一個(gè)與軍事相關(guān)的相對穩(wěn)定的概念,因而如果能找到詞組背后穩(wěn)固的知識(shí)關(guān)系,就可以通過少而精的訓(xùn)練數(shù)據(jù)來對網(wǎng)絡(luò)文本處理提供有效的支持。因而,要解決以上所述困局,需要一個(gè)能涵蓋社會(huì)各領(lǐng)域的知識(shí)庫,不僅能提供全面、準(zhǔn)確、復(fù)雜的知識(shí)關(guān)系,還要能及時(shí)跟進(jìn)社會(huì)熱點(diǎn)與網(wǎng)絡(luò)流行動(dòng)態(tài)。
      在中文知識(shí)信息領(lǐng)域,百度百科是一部內(nèi)容開放、自由的網(wǎng)絡(luò)百科全書,其旨在創(chuàng)造一個(gè)涵蓋各領(lǐng)域知識(shí)的中文信息收集平臺(tái),并與百度搜索、百度知道結(jié)合,從不同的層次上滿足用戶對信息的需求。百度百科所含內(nèi)容的基礎(chǔ)單位是詞條,一個(gè)詞條由百科名片、詞條正文、參考資料、開放分類、相關(guān)詞條和擴(kuò)展閱讀六個(gè)部分組成,不同的組成部分從不同的角度對一個(gè)知識(shí)進(jìn)行闡述。百度百科相比于傳統(tǒng)的各種知識(shí)庫,其主要優(yōu)點(diǎn)有(I)廣泛性截止到目前為止,百度百科詞條總數(shù)已超340萬條,基本涵蓋社會(huì)各領(lǐng)域知識(shí),即使是網(wǎng)絡(luò)用語,絕大多數(shù)也都形成了獨(dú)立的詞條,如‘矮油’、‘筆迷’ ‘我暈’;(2)開放性百度百科強(qiáng)調(diào)用戶的參與和奉獻(xiàn)精神,充分調(diào)動(dòng)互聯(lián)網(wǎng)用戶的力量,匯聚上億用戶的頭腦智慧,積極進(jìn)行交流和分享;(3)實(shí)時(shí)性只要社會(huì)熱點(diǎn)事件一出現(xiàn),比如最近的‘李天一打人’、‘郭美美’,百度百科上的相關(guān)詞條也隨即進(jìn)行及時(shí)、全面、權(quán)威和深度分析,還隨著事件的進(jìn)展而不斷更新;(4)關(guān)聯(lián)性在百度百科里容易得到一個(gè)詞條和其他事物之間千絲萬縷的關(guān)系;(5)多樣性一個(gè)詞條可以有多種表達(dá)形式,如‘C羅’或‘C羅納爾多’與‘克里斯蒂亞諾.羅納爾多’等;(6)質(zhì)量為保證質(zhì)量,引入了權(quán)威認(rèn)證詞條的機(jī)制,通過專業(yè)機(jī)構(gòu)對詞條進(jìn)行專業(yè)認(rèn)證,以保證詞條內(nèi)容的權(quán)威性,給用戶提供高質(zhì)量的專業(yè)解釋化服務(wù)。因而,我們認(rèn)為百度百科可以為網(wǎng)絡(luò)文本語義挖掘、分類提供實(shí)時(shí)、準(zhǔn)確和豐富的語義信息支持,并可在很大程度上解決網(wǎng)絡(luò)文本表述不規(guī)范性問題,能在網(wǎng)絡(luò)文本語義挖掘乃至中文信息等諸多領(lǐng)域發(fā)揮巨大作用。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于提供一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,不需要大量地訓(xùn)練數(shù)據(jù),不僅對表述不規(guī)范的短文本有效,而且在表述規(guī)范的長文本上的分類效果也表現(xiàn)不俗。本發(fā)明一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,主要包括如下步驟步驟I、建立一個(gè)百度百科詞庫前綴關(guān)系;步驟2、對于一段文本T,利用百度百科詞庫前綴關(guān)系,進(jìn)行快速詞條發(fā)現(xiàn),找出所有可能涉及的詞條,形成候選詞條集合;步驟3、把所有候選詞條對應(yīng)的百度百科的開放分類作為文本T的候選語義主題,并統(tǒng)計(jì)形成候選語義主題的權(quán)重向量;步驟4、對訓(xùn)練數(shù)據(jù)中的每一個(gè)類別,分別計(jì)算該類別的主題權(quán)重向量,相互之間進(jìn)行正交化;步驟5、按向量相似度算法計(jì)算文本T與已知類別的相似度和文本T的語義離散度值,并根據(jù)語義離散度值選取相似度最高的前N個(gè)分類作為文本T的分類集合。所述的步驟I具體為設(shè)文本T = tlt2…tn由n個(gè)漢字組成,其中n > l,Ri = T[1…i]表示文本T的從第I到第i個(gè)字符串,該i > 1,這樣長度為n的文本T有n-1個(gè)非空前綴,分別為R2,R3,…Rn-I,文本T的前綴數(shù)組是由R1,R2,…Rn-I組成的n_l個(gè)字符串?dāng)?shù)組,記為PRE (T) ={R2,R3,…Rn},令三元組a K =〈R,B,TS>表示字符串前綴R與百度百科詞庫中詞條的關(guān)系,B表示該前綴是否為一個(gè)完整詞條,TS表示一個(gè)詞條集合,且對于任意的T ETS,都有RGPRE(T) A (T^R);令詞庫C= {C1,C2…Cn},由n個(gè)詞條Cn組成,對百度百科詞庫中所有詞條的如綴都生成相應(yīng)的如綴關(guān)系a,這些如綴關(guān)系組成的集合為詞庫如綴關(guān)系。所述的步驟2具體為設(shè)文本T包括長度為n的字符串,T[i,j]表示文本T的從第i個(gè)字符到第j個(gè)字符串,記為Ci,j,若Ci,j是一個(gè)百科詞條,則其為文本T的候選詞條;令候選詞條集合為result,文本T的字符串長度為n,從文本T的第一個(gè)字符開始循環(huán)掃描到最后一個(gè)字符,取出連續(xù)字符串S,如果字符串s在步驟I的詞庫前綴關(guān)系中未能找到,則進(jìn)入下一重循環(huán),否則將字符串S作為一個(gè)候選詞條,加入到候選詞條集合result中,取文本T的下一個(gè)字符與該連續(xù)字符串s合并,繼續(xù)上述候選詞條的判斷步驟,直至文本T的最后一個(gè)字符。所述的步驟3具體為利用步驟2找出的該段網(wǎng)絡(luò)文本T所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本T的候選語義主題,對每一個(gè)候選語義主題都進(jìn)行統(tǒng)記,并歸一化為主題語義權(quán)重
      權(quán)利要求
      1.一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,其特征在于主要包括如下步驟 步驟I、建立ー個(gè)百度百科詞庫前綴關(guān)系; 步驟2、對于一段文本T,利用百度百科詞庫前綴關(guān)系,進(jìn)行快速詞條發(fā)現(xiàn),找出所有可能涉及的詞條,形成候選詞條集合; 步驟3、把所有候選詞條對應(yīng)的百度百科的開放分類作為文本T的候選語義主題,并統(tǒng)計(jì)形成候選語義主題的權(quán)重向量; 步驟4、對訓(xùn)練數(shù)據(jù)中的每ー個(gè)類別,分別計(jì)算該類別的主題權(quán)重向量,相互之間進(jìn)行正交化; 步驟5、按向量相似度算法計(jì)算文本T與已知類別的相似度和文本T的語義離散度值,并根據(jù)語義離散度值選取相似度最高的前N個(gè)分類作為文本T的分類集合。
      2.根據(jù)權(quán)利要求I所述的ー種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,其特征在于所述的步驟I具體為 設(shè)文本T = tlt2··· tn由η個(gè)漢字組成,其中η > l,Ri = T[1…i]表示文本T的從第I到第i個(gè)字符串,該i > 1,這樣長度為η的文本T有η-1個(gè)非空前綴,分別為R2,R3,…Rn-Ι,文本T的前綴數(shù)組是由Rl,R2,…Rn-I組成的n_l個(gè)字符串?dāng)?shù)組,記為PRE(T)={R2,R3,…Rn},令三元組a K =〈R,B,TS>表示字符串前綴R與百度百科詞庫中詞條的關(guān)系,B表示該前綴是否為一個(gè)完整詞條,TS表示一個(gè)詞條集合,且對于任意的T e TS,都有R e PR3 (T) Λ (T^R);令詞庫C= {Cl,C2…Cn},由η個(gè)詞條Cn組成,對百度百科詞庫中所有詞條的前綴都生成相應(yīng)的前綴關(guān)系α,這些前綴關(guān)系組成的集合為詞庫前綴關(guān)系。
      3.根據(jù)權(quán)利要求I所述的ー種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,其特征在于所述的步驟2具體為 設(shè)文本T包括長度為η的字符串,T[i,j]表示文本T的從第i個(gè)字符到第j個(gè)字符串,記為Ci,j,若Ci,j是ー個(gè)百科詞條,則其為文本T的候選詞條; 令候選詞條集合為result,文本T的字符串長度為n,從文本T的第一個(gè)字符開始循環(huán)掃描到最后ー個(gè)字符,取出連續(xù)字符串S,如果字符串s在步驟I的詞庫前綴關(guān)系中未能找到,則進(jìn)入下一重循環(huán),否則將字符串s作為ー個(gè)候選詞條,加入到候選詞條集合result中,取文本T的下一個(gè)字符與該連續(xù)字符串s合井,繼續(xù)上述候選詞條的判斷步驟,直至文本T的最后ー個(gè)字符。
      4.根據(jù)權(quán)利要求I所述的ー種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,其特征在于所述的步驟3具體為 利用步驟2找出的該段網(wǎng)絡(luò)文本T所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本T的候選語義主題,對每ー個(gè)候選語義主題都進(jìn)行統(tǒng)記,并歸ー化為主題語義權(quán)重
      5.根據(jù)權(quán)利要求I所述的ー種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,其特征在于所述的步驟4具體為 設(shè)Al和A2分別為文本Tl與文本T2的統(tǒng)計(jì)主題權(quán)重向量,二者正交化后分別記為Al'和A2',其中Al'和A2'中的第i個(gè)語義主題e的權(quán)重分別為
      6.根據(jù)權(quán)利要求I所述的ー種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,其特征在于所述的步驟5具體為 設(shè)T為一段網(wǎng)絡(luò)文本,文本空間中共有k個(gè)相互獨(dú)立類別{cl,02丨01^},尸('^)為文本T屬于ci類別的概率, 如·17 其中,At為未知文本T的語義主題權(quán)重向量,A' ci為第i個(gè)類別與其它類別作正交化之后的語義主題權(quán)重向量; P(c*|T)是文本T在這k個(gè)類別中最大可能分類概率,其中ド=ΙΓ)) ’則其語義離散度值f為
      全文摘要
      本發(fā)明一種基于百度百科的網(wǎng)絡(luò)文本語義的分類方法,利用百度百科把一段文本從外延詞條集合映射到能體現(xiàn)內(nèi)涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計(jì)規(guī)律性來計(jì)算文本與文本、文本與類別之間的相似度,進(jìn)而完成文本分類,避開通過窮舉詞條的統(tǒng)計(jì)方式,解決了傳統(tǒng)文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對網(wǎng)絡(luò)詞匯和新生詞匯的難題。
      文檔編號(hào)G06F17/30GK102662987SQ20121006660
      公開日2012年9月12日 申請日期2012年3月14日 優(yōu)先權(quán)日2012年3月14日
      發(fā)明者陳葉旺 申請人:華僑大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1