行業(yè)特征詞確定方法和裝置及行業(yè)文本聚類方法和服務器的制造方法
【專利摘要】本發(fā)明實施例提供一種行業(yè)特征詞確定方法和裝置及行業(yè)文本聚類方法和服務器。該行業(yè)特征詞確定方法包括:獲取行業(yè)文本組;基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字;基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。本方案在獲取到行業(yè)文本組之后,通過從行業(yè)文本組中確定行業(yè)種子字,由于行業(yè)種子字是根據(jù)行業(yè)文本組中每個字的參數(shù)以及對應字的參考參數(shù)確定的,保證了確定的行業(yè)種子字的可信度,同時避免了行業(yè)種子字的遺漏;再通過行業(yè)種子字從行業(yè)文本組中提取行業(yè)特征詞,保證了提取的行業(yè)特征詞的可信度。
【專利說明】行業(yè)特征詞確定方法和裝置及行業(yè)文本聚類方法和服務器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及信息聚類【技術(shù)領(lǐng)域】,尤其涉及一種行業(yè)特征詞確定方法和裝置及行業(yè)文本聚類方法和服務器。
【背景技術(shù)】
[0002]聚類是對數(shù)據(jù)對象進行劃分的一種過程,與分類不同的是,聚類所劃分的類是未知的,因此是一個“無監(jiān)督學習”(unSUperviSed learning)過程,即聚類不需要提供訓練數(shù)據(jù),傾向于數(shù)據(jù)的自然劃分。
[0003]文本聚類(Text clustering)是聚類分析技術(shù)在文本處理領(lǐng)域的一種應用,具體是將文本集合分組成多個類,使得在同一個類中的文本內(nèi)容具有較高的相似度,而不同類或簇中的文本內(nèi)容差別較大。
[0004]然而現(xiàn)有技術(shù)中并沒有提供確定行業(yè)特征詞的處理方法。利用現(xiàn)有的聚類方法,在對行業(yè)文本進行聚類時,由于很難確定行業(yè)特征詞,導致行業(yè)文本聚類結(jié)果的準確性低。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種行業(yè)特征詞確定方法和裝置,以提供行業(yè)特征詞的確定方式。
[0006]本發(fā)明實施例還提供一種行業(yè)文本聚類方法和服務器,以提供行業(yè)文本聚類的實現(xiàn)方式。
[0007]第一方面,本發(fā)明實施例提供了一種行業(yè)特征詞確定方法,包括:
[0008]獲取行業(yè)文本組;
[0009]基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字;
[0010]基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。
[0011]第二方面,本發(fā)明實施例提供了一種行業(yè)特征詞確定裝置,包括:
[0012]文本獲取模塊,用于獲取行業(yè)文本組;
[0013]種子字確定模塊,用于基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字;
[0014]特征詞提取模塊,用于基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。
[0015]本發(fā)明實施例提供的行業(yè)特征詞確定方法和裝置,在獲取到行業(yè)文本組之后,通過從行業(yè)文本組中確定行業(yè)種子字,由于行業(yè)種子字是根據(jù)行業(yè)文本組中每個字的參數(shù)以及對應字的參考參數(shù)確定的,保證了確定的行業(yè)種子字的可信度,同時避免了行業(yè)種子字的遺漏;再通過行業(yè)種子字從行業(yè)文本組中提取行業(yè)特征詞,保證了提取的行業(yè)特征詞的可信度。
[0016]第三方面,本發(fā)明實施例提供了一種行業(yè)文本聚類方法,包括:
[0017]采用本發(fā)明任意實施例提供的行業(yè)特征詞確定方法確定行業(yè)文本組包含的文本對應的行業(yè)特征詞;
[0018]對于所述行業(yè)文本組中的任意兩個文本,統(tǒng)計所述兩個文本的共有行業(yè)特征詞的數(shù)量;如果所述兩個文本的共有行業(yè)特征詞的數(shù)量大于第一設(shè)定閾值,則將所述兩個文本聚類為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合;
[0019]對于任意兩個主題,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,并根據(jù)確定結(jié)果,確定是否合并所述兩個主題,以及所述兩個主題各自的文本列表和行業(yè)特征詞的集合。
[0020]第四方面,本發(fā)明實施例提供了一種行業(yè)文本聚類服務器,包括:
[0021]本發(fā)明任意實施例提供的行業(yè)特征詞確定裝置,用于確定行業(yè)文本組包含的文本對應的行業(yè)特征詞;
[0022]文本聚類模塊,用于對于所述行業(yè)文本組中的任意兩個文本,統(tǒng)計所述兩個文本的共有行業(yè)特征詞的數(shù)量;如果所述兩個文本的共有行業(yè)特征詞的數(shù)量大于第一設(shè)定閾值,則將所述兩個文本聚類為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合;
[0023]主題聚類模塊,用于對于任意兩個主題,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,并根據(jù)確定結(jié)果,確定是否合并所述兩個主題,以及所述兩個主題各自的文本列表和行業(yè)特征詞的集合。
[0024]本發(fā)明實施例提供的行業(yè)文本聚類方法和服務器,在確定行業(yè)文本組中每個文本對應的行業(yè)特征詞之后,以兩個文本為單位,根據(jù)該兩個文本的共有的行業(yè)特征詞的數(shù)量,確定該兩個文本的相似度,并將相似的兩個文本聚類合并為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合;然后以兩個主題為單位,確定該兩個主題的相似度,并將相似的兩個主題聚類合并,同時合并該兩個主題各自的文本列表和行業(yè)特征詞的集合,從而得到了行業(yè)包含的主題,以及各主題對應的文本列表和行業(yè)特征詞的集合。
【專利附圖】
【附圖說明】
[0025]為了更清楚地說明本發(fā)明,下面將對本發(fā)明中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0026]圖1為本發(fā)明實施例一提供的一種行業(yè)特征詞確定方法的流程圖;
[0027]圖2為本發(fā)明實施例二提供的一種行業(yè)特征詞確定方法的流程圖;
[0028]圖3為本發(fā)明實施例三提供的一種行業(yè)特征詞確定裝置的結(jié)構(gòu)示意圖;
[0029]圖4為本發(fā)明實施例四提供的一種行業(yè)文本聚類方法的流程圖;
[0030]圖5為本發(fā)明實施例五提供的一種行業(yè)文本聚類服務器的結(jié)構(gòu)示意圖。
【具體實施方式】
[0031]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施例中的技術(shù)方案作進一步詳細描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例??梢岳斫獾氖?,此處所描述的具體實施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定,基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0032]實施例一
[0033]請參閱圖1,為本發(fā)明實施例一提供的一種行業(yè)特征詞確定方法的流程圖。本發(fā)明實施例的方法可以由配置以硬件和/或軟件實現(xiàn)的行業(yè)特征詞確定裝置執(zhí)行,該實現(xiàn)裝置典型的是配置于能夠提供文本聚類服務的服務器中。
[0034]該方法包括:步驟110?步驟130。
[0035]步驟110、獲取行業(yè)文本組。
[0036]本步驟中,行業(yè)文本組由多篇行業(yè)文本組成,行業(yè)可以是現(xiàn)有的各種行業(yè),例如,汽車、體育、財經(jīng)和娛樂等。具體可以人工收集行業(yè)文本組,例如,人工收集1000篇汽車行業(yè)的典型文章,組成行業(yè)為汽車的文本組;也可以從行業(yè)網(wǎng)站中抓取多篇行業(yè)文本,組成行業(yè)文本組。
[0037]優(yōu)選是按設(shè)定的時間間隔(例如,3個月)動態(tài)獲取行業(yè)文本組,由于在不同的時間段內(nèi),行業(yè)發(fā)展趨勢的不同,導致不同時段對應的行業(yè)文本組不同,因此,有利于動態(tài)跟蹤行業(yè)種子字,相應得到隨時間動態(tài)變化的行業(yè)特征詞,也即,有利于動態(tài)確定行業(yè)熱點。
[0038]步驟120、基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字。
[0039]其中,所述預設(shè)行業(yè)種子字確定策略與行業(yè)文本組中每個字的參數(shù)(例如,出現(xiàn)次數(shù)或出現(xiàn)頻率,逆文檔頻率,或是否是停用字等)以及對應字的參考參數(shù)關(guān)聯(lián),從而在保證確定的行業(yè)種子字的可信度的同時,避免了行業(yè)種子字的遺漏。
[0040]本步驟中,可以根據(jù)每個字在對應的文本中的出現(xiàn)頻率,確定行業(yè)種子字;也可以根據(jù)對文本中的停用字進行過濾,根據(jù)經(jīng)過濾處理后的每個字在對應的文本中的出現(xiàn)頻率,確定行業(yè)種子字。
[0041]需要說明的是,行業(yè)種子字隨行業(yè)發(fā)展而動態(tài)變化。以汽車行業(yè)為例進行說明,隨著《爸爸去哪兒》綜藝節(jié)目的熱播,相應的行業(yè)文本組中與汽車贊助商“英菲尼迪”相關(guān)的文本增多,導致從這一時間段的行業(yè)文本中得到的行業(yè)種子字包含“英”、“菲”、“尼”和“迪”;又如,隨著《爸爸去哪兒》綜藝節(jié)目收官,以及《奔跑吧,兄弟》綜藝節(jié)目的熱播,相應的行業(yè)文本組中與汽車贊助商“凌渡”相關(guān)的文本增多,導致從這一時間段的行業(yè)文本中得到的行業(yè)種子字包含“凌”和“渡”;再如,隨著混合動力系統(tǒng)的逐步發(fā)展,相應的行業(yè)文本組中與“混合動力”相關(guān)的文本增多,導致從這一時間段的行業(yè)文本中得到的行業(yè)種子字包含“混”、“合”、“動”和“力”。
[0042]步驟130、基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。
[0043]如前所述,不同時段的行業(yè)文本組動態(tài)變化,導致相應的行業(yè)種子字和行業(yè)特征詞亦動態(tài)變化。
[0044]本實施例的技術(shù)方案,在獲取到行業(yè)文本組之后,通過從行業(yè)文本組中確定行業(yè)種子字,由于行業(yè)種子字是根據(jù)行業(yè)文本組中每個字的參數(shù)以及對應字的參考參數(shù)確定的,保證了確定的行業(yè)種子字的可信度,同時避免了行業(yè)種子字的遺漏;再通過行業(yè)種子字從行業(yè)文本組中提取行業(yè)特征詞,保證了提取的行業(yè)特征詞的可信度。
[0045]作為基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞的一種優(yōu)選的實施方式,具體可以包括下述操作:
[0046]在所述行業(yè)文本組包含的文本中確定包含至少一個行業(yè)種子字的詞;
[0047]如果所述包含至少一個行業(yè)種子字的詞在該文本中的出現(xiàn)次數(shù)大于第二門限值,且長度小于第三門限值,則將所述包含至少一個行業(yè)種子字的詞確定為該文本中的行業(yè)特征詞。
[0048]通過本實施方式確定的行業(yè)特征詞滿足以下條件:不僅包含有至少一個行業(yè)種子字,而且所述行業(yè)特征詞在行業(yè)文本中的共現(xiàn)頻率較高,且限制了所述行業(yè)特征詞的長度。
[0049]需要說明的是,如果長度太短,導致提取到的包含有至少一個行業(yè)種子字的行業(yè)特征詞的可信度低,例如,由一個行業(yè)種子字和一個停用字組成的詞,且該詞在文本中的出現(xiàn)次數(shù)大于第二門限值;如果長度太長,導致原本可以作為行業(yè)特征詞的詞因長度太長,在文本中共現(xiàn)頻率太低,而沒有被正確提取,因此與詞出現(xiàn)次數(shù)對應的門限值以及與詞長度對應的門限值的合理設(shè)置,能夠提高根據(jù)行業(yè)種子字確定的行業(yè)特征詞的可信度和準確率。
[0050]作為基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞的另一種優(yōu)選的實施方式,具體可以包括下述操作:
[0051]在所述行業(yè)文本組包含的文本中確定包含至少一個行業(yè)種子字的詞;
[0052]如果所述包含至少一個行業(yè)種子字的詞在該文本中的出現(xiàn)次數(shù)大于第二門限值,且長度小于第三門限值,則將所述包含至少一個行業(yè)種子字的詞確定為該文本中的行業(yè)特征詞;
[0053]判斷所述包含至少一個行業(yè)種子字的詞包含的子串在該文本中的出現(xiàn)次數(shù)是否大于第四門限值;
[0054]若是,則將所述子串確定為該文本中的行業(yè)特征詞;
[0055]其中,所述子串的長度大于等于2,且小于對應的包含至少一個行業(yè)種子字的詞的長度。
[0056]本實施方式與上述實施方式的區(qū)別在于:一方面,將包含有至少一個行業(yè)種子字,行業(yè)文本中的詞出現(xiàn)次數(shù)較高,且詞長度符合要求的詞作為行業(yè)特征詞;另一方面,通過子串對應的詞出現(xiàn)次數(shù)和長度對確定的行業(yè)特征詞的子串進行進一步篩選,避免了行業(yè)特征詞的遺漏。
[0057]例如,在確定行業(yè)特征詞“凌渡車型好看”之后,對子串“凌渡”、“凌渡車”、“凌渡車型”、“凌渡車型好”、“車型好”、“型好看”分別與第四門限值進行比較,從而補充確定行業(yè)特征詞。
[0058]實施例二
[0059]請參閱圖2,為本發(fā)明實施例二提供的一種行業(yè)特征詞確定方法的流程圖。本實施例在上述實施例的基礎(chǔ)上,提供了基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字這一操作的優(yōu)選方案。
[0060]該優(yōu)選方案包括:步驟121?步驟123。
[0061]步驟121、對于所述行業(yè)文本組包含的文本,確定每個字在對應的文本中的出現(xiàn)頻率。
[0062]本步驟具體是對于每個文本,將該文本按字劃分;統(tǒng)計每個字在該文本中的出現(xiàn)次數(shù),并統(tǒng)計該文本的文字總數(shù);將每個字在該文本中的出現(xiàn)次數(shù)除以該文本的文字總數(shù),得到每個字在對應的文本中的出現(xiàn)頻率。
[0063]步驟122、根據(jù)所述每個字在對應的文本中的出現(xiàn)頻率,基于預設(shè)行業(yè)包含的字的參考頻率列表,確定該文本包含的候選種子字。
[0064]本步驟中,所述行業(yè)包含的字的參考頻率列表通過下述操作獲取:統(tǒng)計行業(yè)文本組中每個字在整個行業(yè)文本組中的出現(xiàn)次數(shù);統(tǒng)計行業(yè)文本組中各文本對應的文字總數(shù),得到行業(yè)文本組的文字總數(shù);將每個字在整個行業(yè)文本組中的出現(xiàn)次數(shù)除以行業(yè)文本組的文字總數(shù),得到每個字對應的參考頻率;根據(jù)每個字對應的參考頻率,建立行業(yè)包含的字的參考頻率列表。
[0065]本步驟中,如果字在對應的文本中的出現(xiàn)頻率與所述參考頻率列表中對應字的頻率之比大于第一門限值,則將該字作為所述候選種子字。
[0066]步驟123、根據(jù)預設(shè)停用字列表過濾所述候選種子字,得到該文本包含的行業(yè)種子字。
[0067]本步驟具體是根據(jù)停用字列表對所述候選種子字進行過濾,也即,通過在候選種子字中剔除停用字,從而得到行業(yè)種子字。
[0068]本實施例的技術(shù)方案,對于行業(yè)文本組中的各文本,按字劃分,確定每個字在對應的文本中的出現(xiàn)頻率,并根據(jù)參考頻率列表中對應字的頻率,確定候選種子字,一方面能夠避免候選種子字的遺漏,另一方面能夠保證候選種子字在行業(yè)文本中占有合適的共現(xiàn)頻率;通過在候選種子字過濾掉停用字,提高了得到的行業(yè)種子字的正確率。
[0069]實施例三
[0070]請參閱圖3,為本發(fā)明實施例三提供的一種行業(yè)特征詞確定裝置的結(jié)構(gòu)示意圖。該裝置包括:文本獲取模塊310、種子字確定模塊320和特征詞提取模塊330。
[0071]其中,文本獲取模塊310用于獲取行業(yè)文本組;種子字確定模塊320用于基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字;特征詞提取模塊330用于基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。
[0072]其中,所述預設(shè)行業(yè)種子字確定策略與行業(yè)文本組中每個字的參數(shù)(例如,出現(xiàn)次數(shù)或出現(xiàn)頻率,逆文檔頻率,或是否是停用字等)以及對應字的參考參數(shù)關(guān)聯(lián),從而在保證確定的行業(yè)種子字的可信度的同時,避免了行業(yè)種子字的遺漏。
[0073]本實施例的技術(shù)方案,在獲取到行業(yè)文本組之后,通過從行業(yè)文本組中確定行業(yè)種子字,由于行業(yè)種子字是根據(jù)行業(yè)文本組中每個字的參數(shù)以及對應字的參考參數(shù)確定的,保證了確定的行業(yè)種子字的可信度,同時避免了行業(yè)種子字的遺漏;再通過行業(yè)種子字從行業(yè)文本組中提取行業(yè)特征詞,保證了提取的行業(yè)特征詞的可信度。
[0074]在上述方案中,種子字確定模塊320優(yōu)選包括:字出現(xiàn)頻率確定單元、候選種子字確定單元和行業(yè)種子字確定單元。
[0075]其中,字出現(xiàn)頻率確定單元用于對于所述行業(yè)文本組包含的文本,確定每個字在對應的文本中的出現(xiàn)頻率;候選種子字確定單元用于根據(jù)所述每個字在對應的文本中的出現(xiàn)頻率,基于預設(shè)行業(yè)包含的字的參考頻率列表,確定該文本包含的候選種子字;行業(yè)種子字確定單元用于根據(jù)預設(shè)停用字列表過濾所述候選種子字,得到該文本包含的行業(yè)種子字。
[0076]進一步地,候選種子字確定單元具體可以用于:如果字在對應的文本中的出現(xiàn)頻率與所述參考頻率列表中對應字的頻率之比大于第一門限值,則將該字作為所述候選種子字。
[0077]作為本實施例的一種優(yōu)選的實施方式,特征詞提取模塊330具體可以用于:
[0078]在所述行業(yè)文本組包含的文本中確定包含至少一個行業(yè)種子字的詞;
[0079]如果所述包含至少一個行業(yè)種子字的詞在該文本中的出現(xiàn)次數(shù)大于第二門限值,且長度小于第三門限值,則將所述包含至少一個行業(yè)種子字的詞確定為該文本中的行業(yè)特征詞。
[0080]作為本實施例的另一種優(yōu)選的實施方式,特征詞提取模塊330具體可以用于:
[0081]在所述行業(yè)文本組包含的文本中確定包含至少一個行業(yè)種子字的詞;
[0082]如果所述包含至少一個行業(yè)種子字的詞在該文本中的出現(xiàn)次數(shù)大于第二門限值,且長度小于第三門限值,則將所述包含至少一個行業(yè)種子字的詞確定為該文本中的行業(yè)特征詞;
[0083]判斷所述包含至少一個行業(yè)種子字的詞包含的子串在該文本中的出現(xiàn)次數(shù)是否大于第四門限值;
[0084]若是,則將所述子串確定為該文本中的行業(yè)特征詞;
[0085]其中,所述子串的長度大于等于2,且小于對應的包含至少一個行業(yè)種子字的詞的長度。
[0086]本發(fā)明實施例提供的行業(yè)特征詞確定裝置可執(zhí)行本發(fā)明任意實施例所提供的行業(yè)特征詞確定方法,具備執(zhí)行方法相應的功能模塊和有益效果。
[0087]實施例四
[0088]請參閱圖4,為本發(fā)明實施例四提供的一種行業(yè)文本聚類方法的流程圖。本發(fā)明實施例的方法可以由配置以硬件和/或軟件實現(xiàn)的行業(yè)文本聚類服務器執(zhí)行。
[0089]該方法包括:步驟410?步驟430。
[0090]步驟410、確定行業(yè)文本組包含的文本對應的行業(yè)特征詞,其中,所述行業(yè)特征詞采用前述實施例提供的行業(yè)特征詞確定方法進行確定。
[0091]步驟420、對于所述行業(yè)文本組中的任意兩個文本,統(tǒng)計所述兩個文本的共有行業(yè)特征詞的數(shù)量;如果所述兩個文本的共有行業(yè)特征詞的數(shù)量大于第一設(shè)定閾值,則將所述兩個文本聚類為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合。
[0092]本步驟中,在確定行業(yè)文本組中每個文本對應的行業(yè)特征詞之后,以兩個文本為單位,根據(jù)該兩個文本的共有的行業(yè)特征詞的數(shù)量,確定該兩個文本的相似度,并根據(jù)該兩個文本的相似度確定結(jié)果,將相似的兩個文本合并為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合。
[0093]具體地,可以將所述兩個文本各自對應的行業(yè)特征詞的集合確定為該主題對應的行業(yè)特征詞的集合。
[0094]步驟430、對于任意兩個主題,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,并根據(jù)確定結(jié)果,確定是否合并所述兩個主題,以及所述兩個主題各自的文本列表和行業(yè)特征詞的集合。
[0095]本步驟中,以兩個主題為單位,確定該兩個主題的相似度,并將相似的兩個主題合并,同時合并兩個主題各自的文本列表和行業(yè)特征詞的集合。
[0096]優(yōu)選地,如果所述兩個主題共有的行業(yè)特征詞的數(shù)量與包含的行業(yè)特征詞數(shù)量較少的主題中行業(yè)特征詞數(shù)量的比值大于第二設(shè)定閾值,則確定所述兩個主題相似。
[0097]以體育行業(yè)為例進行說明。第一主題對應的行業(yè)特征詞的集合為“上海,世界,匯豐冠軍賽,世錦賽”,第二主題對應的行業(yè)特征詞的集合為“世界,匯豐冠軍賽,高爾夫,世錦賽”,第三主題對應的行業(yè)特征詞的集合為“世界,高爾夫”,其中,第一主題和第二主題共同包含“世界,匯豐冠軍賽,世錦賽”,并經(jīng)過與第二設(shè)定閾值比較后,確定為相似主題,因此需要合并,合并后的主題對應的行業(yè)特征詞的集合為“上海,世界,匯豐冠軍賽,世錦賽,高爾夫”;第一主題與第三主題共同包含“世界,高爾夫”,并經(jīng)過與第二設(shè)定閾值比較后,確定為不相似主題,因此無需合并。
[0098]再以汽車行業(yè)為例進行說明。第一主題對應的行業(yè)特征詞的集合為“空氣動力學性能,風阻系數(shù),凌渡,油耗,卓越”,第二主題對應的行業(yè)特征詞的集合為“空氣動力學性能,研發(fā),風阻系數(shù),凌渡”,第三主題對應的行業(yè)特征詞的集合為“凌渡,車型,空間”,其中,第一主題和第二主題共同包含“空氣動力學性能,研發(fā),風阻系數(shù),凌渡”,并經(jīng)過與第二設(shè)定閾值比較后,確定為相似主題,因此需要合并;第一主題與第三主題共同包含“凌渡”,并經(jīng)過與第二設(shè)定閾值比較后,確定為不相似主題,因此無需合并。
[0099]本實施例的技術(shù)方案,在確定行業(yè)文本組中每個文本對應的行業(yè)特征詞之后,以兩個文本為單位,根據(jù)該兩個文本的共有的行業(yè)特征詞的數(shù)量,確定該兩個文本的相似度,并將相似的兩個文本合并為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合;然后以兩個主題為單位,確定該兩個主題的相似度,并將相似的兩個主題合并,同時合并該兩個主題各自的文本列表和行業(yè)特征詞的集合,從而得到了行業(yè)包含的主題,以及各主題對應的文本列表和行業(yè)特征詞的集合。
[0100]本實施例的技術(shù)方案可以發(fā)現(xiàn)與指定行業(yè)密切相關(guān)的主題類別,適用于發(fā)現(xiàn)行業(yè)內(nèi)熱點話題,還適用于為客戶端推送熱點話題。
[0101]實施例五
[0102]請參閱圖5,為本發(fā)明實施例五提供的一種行業(yè)文本聚類服務器的結(jié)構(gòu)示意圖。該服務器包括:行業(yè)特征詞確定裝置510、文本聚類模塊520和主題聚類模塊530。
[0103]其中,行業(yè)特征詞確定裝置510為前述實施例三提供的行業(yè)特征詞確定裝置,用于確定行業(yè)文本組包含的文本對應的行業(yè)特征詞;文本聚類模塊520用于對于所述行業(yè)文本組中的任意兩個文本,統(tǒng)計所述兩個文本的共有行業(yè)特征詞的數(shù)量;如果所述兩個文本的共有行業(yè)特征詞的數(shù)量大于第一設(shè)定閾值,則將所述兩個文本聚類為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合;主題聚類模塊530用于對于任意兩個主題,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,并根據(jù)確定結(jié)果,確定是否合并所述兩個主題,以及所述兩個主題各自的文本列表和行業(yè)特征詞的集合。
[0104]本實施例的技術(shù)方案,在確定行業(yè)文本組中每個文本對應的行業(yè)特征詞之后,以兩個文本為單位,根據(jù)該兩個文本的共有的行業(yè)特征詞的數(shù)量,確定該兩個文本的相似度,并將相似的兩個文本合并為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合;然后以兩個主題為單位,確定該兩個主題的相似度,并將相似的兩個主題合并,同時合并該兩個主題各自的文本列表和行業(yè)特征詞的集合,從而得到了行業(yè)包含的主題,以及各主題對應的文本列表和行業(yè)特征詞的集合。
[0105]在上述方案中,可以將所述兩個文本各自對應的行業(yè)特征詞的集合確定為該主題對應的行業(yè)特征詞的集合。
[0106]在上述方案中,主題聚類模塊530具體可以用于:如果所述兩個主題共有的行業(yè)特征詞的數(shù)量與包含的行業(yè)特征詞數(shù)量較少的主題中行業(yè)特征詞數(shù)量的比值大于第二設(shè)定閾值,則確定所述兩個主題相似。
[0107]本發(fā)明實施例提供的行業(yè)文本聚類服務器可執(zhí)行本發(fā)明任意實施例所提供的行業(yè)文本聚類方法,具備執(zhí)行方法相應的功能模塊和有益效果。
[0108]最后應說明的是:以上各實施例僅用于說明本發(fā)明的技術(shù)方案,而非對其進行限制;實施例中優(yōu)選的實施方式,并非對其進行限制,對于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種行業(yè)特征詞確定方法,其特征在于,包括: 獲取行業(yè)文本組; 基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字; 基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字,包括: 對于所述行業(yè)文本組包含的文本,確定每個字在對應的文本中的出現(xiàn)頻率; 根據(jù)所述每個字在對應的文本中的出現(xiàn)頻率,基于預設(shè)行業(yè)包含的字的參考頻率列表,確定該文本包含的候選種子字; 根據(jù)預設(shè)停用字列表過濾所述候選種子字,得到該文本包含的行業(yè)種子字。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述每個字在對應的文本中的出現(xiàn)頻率,基于預設(shè)行業(yè)包含的字的參考頻率列表,確定該文本包含的候選種子字,包括: 如果字在對應的文本中的出現(xiàn)頻率與所述參考頻率列表中對應字的頻率之比大于第一門限值,則將該字作為所述候選種子字。
4.根據(jù)權(quán)利要求1-3任一所述的方法,基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞,包括: 在所述行業(yè)文本組包含的文本中確定包含至少一個行業(yè)種子字的詞; 如果所述包含至少一個行業(yè)種子字的詞在該文本中的出現(xiàn)次數(shù)大于第二門限值,且長度小于第三門限值,則將所述包含至少一個行業(yè)種子字的詞確定為該文本中的行業(yè)特征
ο
5.根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞,包括: 在所述行業(yè)文本組包含的文本中確定包含至少一個行業(yè)種子字的詞; 如果所述包含至少一個行業(yè)種子字的詞在該文本中的出現(xiàn)次數(shù)大于第二門限值,且長度小于第三門限值,則將所述包含至少一個行業(yè)種子字的詞確定為該文本中的行業(yè)特征詞; 判斷所述包含至少一個行業(yè)種子字的詞包含的子串在該文本中的出現(xiàn)次數(shù)是否大于第四門限值; 若是,則將所述子串確定為該文本中的行業(yè)特征詞; 其中,所述子串的長度大于等于2,且小于對應的包含至少一個行業(yè)種子字的詞的長度。
6.一種行業(yè)文本聚類方法,其特征在于,包括: 采用如權(quán)利要求1-5任一所述的行業(yè)特征詞確定方法確定行業(yè)文本組包含的文本對應的行業(yè)特征詞; 對于所述行業(yè)文本組中的任意兩個文本,統(tǒng)計所述兩個文本的共有行業(yè)特征詞的數(shù)量;如果所述兩個文本的共有行業(yè)特征詞的數(shù)量大于第一設(shè)定閾值,則將所述兩個文本聚類為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合; 對于任意兩個主題,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,并根據(jù)確定結(jié)果,確定是否合并所述兩個主題,以及所述兩個主題各自的文本列表和行業(yè)特征詞的集合。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,將所述兩個文本各自對應的行業(yè)特征詞的集合確定為該主題對應的行業(yè)特征詞的集合。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,包括: 如果所述兩個主題共有的行業(yè)特征詞的數(shù)量與包含的行業(yè)特征詞數(shù)量較少的主題中行業(yè)特征詞數(shù)量的比值大于第二設(shè)定閾值,則確定所述兩個主題相似。
9.一種行業(yè)特征詞確定裝置,其特征在于,包括: 文本獲取模塊,用于獲取行業(yè)文本組; 種子字確定模塊,用于基于預設(shè)行業(yè)種子字確定策略,從所述行業(yè)文本組包含的文本中確定該文本對應的行業(yè)種子字; 特征詞提取模塊,用于基于預設(shè)行業(yè)特征詞提取策略,利用所述行業(yè)種子字,在對應的文本中提取該文本包含的行業(yè)特征詞。
10.一種行業(yè)文本聚類服務器,其特征在于,包括: 如權(quán)利要求9所述的行業(yè)特征詞確定裝置,用于確定行業(yè)文本組包含的文本對應的行業(yè)特征詞; 文本聚類模塊,用于對于所述行業(yè)文本組中的任意兩個文本,統(tǒng)計所述兩個文本的共有行業(yè)特征詞的數(shù)量;如果所述兩個文本的共有行業(yè)特征詞的數(shù)量大于第一設(shè)定閾值,則將所述兩個文本聚類為一個主題,并確定該主題的對應的文本列表以及該主題對應的行業(yè)特征詞的集合; 主題聚類模塊,用于對于任意兩個主題,根據(jù)所述兩個主題各自對應的行業(yè)特征詞的集合,確定所述兩個主題是否相似,并根據(jù)確定結(jié)果,確定是否合并所述兩個主題,以及所述兩個主題各自的文本列表和行業(yè)特征詞的集合。
【文檔編號】G06F17/30GK104391939SQ201410682793
【公開日】2015年3月4日 申請日期:2014年11月24日 優(yōu)先權(quán)日:2014年11月24日
【發(fā)明者】王鐸 申請人:北京銳安科技有限公司