国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于文檔聚類關(guān)鍵詞計算方法

      文檔序號:8935054閱讀:605來源:國知局
      一種基于文檔聚類關(guān)鍵詞計算方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于計算機(jī)數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于文檔聚類關(guān)鍵詞計算方法。
      【背景技術(shù)】
      [0002]在互聯(lián)網(wǎng)行業(yè)中,用戶往往會采用關(guān)鍵詞組的查找,找出能代表其興趣瀏覽的文章?,F(xiàn)有技術(shù)中,都是把給定的文檔集合當(dāng)成一個完整的不可分割的整體,并在其上計算代表性關(guān)鍵詞。典型應(yīng)用包括新聞網(wǎng)站的個性化閱讀系統(tǒng),能根據(jù)用戶所瀏覽的新聞,計算出代表用戶興趣的一組關(guān)鍵詞,并基于這組關(guān)鍵詞推薦新的文章。但事實(shí)上,一個用戶的興趣往往包含多個方面,是分散的。因此,對應(yīng)的文檔集合可以劃分為若干組文檔,每組對應(yīng)著用戶的一個興趣點(diǎn),且每一組內(nèi)部的文檔之間相關(guān)性很高,但不同組的文檔之間則相關(guān)性較低。
      [0003]通常情況下,一篇文章的特征是通過一組詞來表示的,一個文檔集合可能包含若干文章,每篇文章包含成百上千個詞條,因此最后算下來,整個文檔集合包含了成千上萬個不同的特征(詞)。如此高維度的特征空間(文檔向量空間),不僅會增加聚類算法的處理時間,而且對算法的精度會產(chǎn)生不良的影響,因此在聚類之前,需要對文檔的向量空間做降維處理?,F(xiàn)有的技術(shù)中,包括分詞、文檔向量化,聚類等技術(shù)都已經(jīng)在機(jī)器學(xué)習(xí)(文本挖掘)領(lǐng)域有專門的討論。如何從給定的文檔集合中,挖掘出代表性關(guān)鍵詞也已經(jīng)有不少應(yīng)用。但是,如何整合一系列的技術(shù),對文檔集合做進(jìn)一步的細(xì)化分組,并在分組上做代表性關(guān)鍵詞的挖掘,卻并沒有具體的技術(shù)方案去實(shí)施。

      【發(fā)明內(nèi)容】

      [0004]為了解決現(xiàn)有技術(shù)存在的上述問題,本發(fā)明提供了一種基于文檔聚類關(guān)鍵詞計算方法。基于文檔聚類的代表性關(guān)鍵詞計算,其目的是在給定的文檔集合中,通過中文分詞、詞頻計算、文檔向量的維度壓縮、聚類等操作,將文檔劃分到若干個組中,每個組包含了緊密相關(guān)的一部分文檔,然后計算出每個組的代表性關(guān)鍵詞,最終組合成整個文檔集合的代表性關(guān)鍵詞。
      [0005]本發(fā)明所采用的技術(shù)方案為:
      [0006]—種基于文檔聚類關(guān)鍵詞計算方法,其改進(jìn)之處在于:所述方法包括
      [0007](I)獲取文本文檔集合;
      [0008](2)將文檔集合中各文檔內(nèi)容采用分詞算法進(jìn)行詞條切分;
      [0009](3)建立文檔向量;
      [0010](4)采用TF-1DF計算文檔向量:
      [0011](5)對文檔向量進(jìn)行維度壓縮;
      [0012](6)進(jìn)行文檔聚類計算;
      [0013](7)計算各組文檔的代表性關(guān)鍵詞。
      [0014]優(yōu)選的,所述步驟(I)包括不限制文檔集合的來源,可為一個或多個文檔組成的集合,每個文檔取出其中包含的正文文本,用以代表這個文檔的內(nèi)容。
      [0015]進(jìn)一步的,對圖片、聲音和視頻多媒體文件的處理,則對其中包含的文本信息來組成集合。
      [0016]優(yōu)選的,所述步驟(2)包括采用任意中文或英文分詞算法,將文本文檔的內(nèi)容做詞條的切分;同時,去除標(biāo)點(diǎn)符號,并去除哦、了、么和其他虛詞。
      [0017]優(yōu)選的,所述步驟(3)包括將步驟(I)中文檔集合中N個文檔,步驟(2)中文檔集合中各文檔經(jīng)過分詞包含的M個詞條,整個文檔集合建立文檔向量;其中,所述M個詞條采用拼音順序進(jìn)行排序。
      [0018]優(yōu)選的,所述步驟⑷包括采用TF-1DF這種統(tǒng)計方法,用以評估步驟(2)中的某個詞條對于步驟(I)文檔集合中的其中一份文檔的重要程度,并獲取N個M維的TF-1DF文檔向量;其中,詞條的重要性取決于在文檔中出現(xiàn)的次數(shù)成正比增加;TF表示詞條在文檔中出現(xiàn)的頻率,IDF表示逆向文檔頻率。
      [0019]優(yōu)選的,所述步驟(5)包括對于步驟(3)建立的文檔向量中文檔集合中N個文檔和文檔集合中各文檔經(jīng)過分詞包含的M個詞條中,某個詞條的出現(xiàn)率大于0,則該文檔包含對應(yīng)的詞條,通過詞條的出現(xiàn)率選取文檔集合的代表性詞條。
      [0020]進(jìn)一步的,所述文檔向量中包含第I個詞條的文檔有NI個,包含第2個詞條的文檔數(shù)量有N2個,以此類推,第M個詞條的文檔數(shù)量為匪;將{NI,N2,N3,...,匪}從大到小排序,取排名前N*x所對應(yīng)的詞條,為本文檔集合的代表性詞條,其中,松散參數(shù)為X可根據(jù)用戶設(shè)定修改。
      [0021]優(yōu)選的,所述步驟(6)包括對文檔向量做維度壓縮后,執(zhí)行K-Means聚類算法,需要聚集而成的類數(shù)量個數(shù)設(shè)為C ;其中,分組個數(shù)C需要用戶在執(zhí)行聚類計算前設(shè)置好,用戶可根據(jù)分類的效果進(jìn)行調(diào)整。
      [0022]優(yōu)選的,所述步驟(7)包括對C個分組的文檔,再次執(zhí)行步驟(4)中的操作,分別計算出每個分組的TF-1DF文檔向量;對計算后文檔向量排序,則可得文檔分組中TF-1DF值最高詞,最終組合成整個文檔集合的代表性關(guān)鍵詞。
      [0023]本發(fā)明的有益效果為:
      [0024]本發(fā)明提供了完整可行的計算步驟,包括獲取文檔集合、中文分詞、TF-1DF計算、文檔向量化、維度壓縮、聚類、一直到最后的推薦關(guān)鍵詞計算等所有必須的環(huán)節(jié),并創(chuàng)新性地支持文檔向量維度的壓縮,計算效率高。
      [0025]本發(fā)明在執(zhí)行文檔向量的降維處理時,采用了不同于任何現(xiàn)有技術(shù)的一種簡潔、高效的新方法。
      [0026]現(xiàn)有技術(shù)方案往往側(cè)重與論述某一個技術(shù)環(huán)節(jié)。每一個環(huán)節(jié),都較為獨(dú)立且有不同的應(yīng)用場景;本發(fā)明是首個連接不同的環(huán)節(jié),以切實(shí)可行的計算步驟,確保從文檔集合中計算出代表性關(guān)鍵詞的技術(shù)方案。
      【附圖說明】
      [0027]圖1是本發(fā)明提供的一種基于文檔聚類關(guān)鍵詞計算方法流程示意圖。
      【具體實(shí)施方式】
      [0028]本發(fā)明所涉及技術(shù)及其注解:
      [0029]1、文本聚類:
      [0030]文本聚類(Text Clustering)文檔聚類主要是依據(jù)著名的聚類假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。文本聚類,可以將一個相對較大的文檔集合,劃分成若干個子類,從而將相似的文檔組織在同一個類里。作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過程,以及不需要預(yù)先對文檔手工標(biāo)注類別,因此具有一定的靈活性和較高的自動化處理能力,已經(jīng)成為對文本信息進(jìn)行有效組織、摘要和導(dǎo)航的重要手段。
      [0031]文本聚類技術(shù)的應(yīng)用主要有:
      [0032]對用戶感興趣的文檔(如用戶瀏覽過的新聞或商品)執(zhí)行聚類操作,從而發(fā)現(xiàn)用戶的興趣模式并用于信息過濾和信息主動推薦等服務(wù)。
      [0033]作為自然語言處理應(yīng)用的預(yù)處理步驟。例如哥倫比亞大學(xué)研發(fā)的多文檔文摘系統(tǒng)Newsblaster。Newsblaster將每天發(fā)生的重要新聞文本進(jìn)行聚類處理,并對同主題文檔進(jìn)行冗余消除、信息融合、文本生成等處理,從而生成一篇簡明扼要的摘要文檔。
      [0034]常見的文本聚類算法有劃分法(代表性算法是Κ-Means)、層次法(代表性算法是BIRCH)、基于密度的方法(代表性算法是DBSCAN)等。
      [0035]2、中文分詞:
      [0036]中文分詞(Chinese Word Segmentat1n)指的是將一個漢字序列切分成一個一個單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨(dú)詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。
      [0037]中文在基本文法上有其特殊性,具體表現(xiàn)在:
      [0038]中文詞與詞之間無明顯分隔。與英文為代表的拉丁語系語言相比,英文以空格作為天然的分隔符,而中文由于繼承自古代漢語的傳統(tǒng),詞條之間沒有分隔。古代漢語中除了連綿詞和人名地名等,詞通常就是單個漢字,所以當(dāng)時沒有分詞書寫的必要。而現(xiàn)代漢語中雙字或多字詞居多,一個字不再等同于一個詞。
      [0039]在中文里,“詞”和“詞組”邊界模糊?,F(xiàn)代漢語的基本表達(dá)單元雖然為“詞”,且以雙字或者多字詞居多,但由于人們認(rèn)識水平的不同,對詞和短語的邊界很難去區(qū)分。例如:“對隨地吐痰者給予處罰”,“隨地吐痰者”本身是一個詞還是一個短語,不同的人會有不同的標(biāo)準(zhǔn)。同樣的,“生物化學(xué)”是一個詞還是兩個詞,即使是同一個人也可能在不同的場景下做出不同判斷。
      [0040]中文分詞是文本挖掘的基礎(chǔ),對于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動識別語句含義的效果。因此,雖然計算機(jī)無法理解某一句話的含義,但其可以通過中文分詞,把其中的詞條提取出來,進(jìn)而在詞條這個統(tǒng)一的單位上執(zhí)行統(tǒng)計計算,實(shí)現(xiàn)一定程度的機(jī)器學(xué)習(xí)和文本挖掘功能。
      [0041]3、TF-1DF 計算:
      [0042]TF-1DF是一種統(tǒng)計方法,用以評估一個詞對于一個文檔集合
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1