国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法

      文檔序號(hào):6505943閱讀:269來(lái)源:國(guó)知局
      一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法
      【專利摘要】本發(fā)明公開了一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法,可分為四個(gè)模塊:頻繁特征詞提取模塊,頻繁特征詞優(yōu)化模塊,關(guān)聯(lián)規(guī)則提取與挖掘模塊以及觀點(diǎn)分類模塊。本發(fā)明克服了現(xiàn)有系統(tǒng)(如一些基于機(jī)器學(xué)習(xí)和情感分類的系統(tǒng))精度低或者是需要大量人工參與或者過(guò)分依賴自然語(yǔ)言處理和專業(yè)知識(shí)的缺點(diǎn)。并且在關(guān)聯(lián)規(guī)則集提取的過(guò)程中進(jìn)行了優(yōu)化,去除了冗余,區(qū)分度不高的關(guān)聯(lián)規(guī)則,這樣一來(lái)就提高了整個(gè)系統(tǒng)運(yùn)行和獲取結(jié)果的效率。本系統(tǒng)為多種情況,如電商商品評(píng)價(jià),電子政務(wù)回饋,網(wǎng)民民意調(diào)查等提供了一種精確便捷的解決方案。
      【專利說(shuō)明】一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法,屬于語(yǔ)義處理【技術(shù)領(lǐng)域】。
      【背景技術(shù)】
      [0002]傳統(tǒng)的文本觀點(diǎn)分類方法有基于機(jī)器學(xué)習(xí)的觀點(diǎn)分類,基于情感分析的觀點(diǎn)分類。
      [0003]基于機(jī)器學(xué)習(xí)的方法將文本分類中的機(jī)器學(xué)習(xí)算法直接用于觀點(diǎn)分類,觀點(diǎn)分類任務(wù)上的準(zhǔn)確率通常要低于面向其它類別主題的文本分類任務(wù)的準(zhǔn)確率。其原因是Web中的觀點(diǎn)文本涉及到人的情感表述,是一種主題很特殊的文本內(nèi)容,其語(yǔ)義隱晦程度要高于客觀描述性的文本,例如,表述“批評(píng)”觀點(diǎn)的評(píng)論往往可能帶有表示諷刺意義的褒義詞,相反的情況也同樣存在,這些特殊的模式是統(tǒng)計(jì)學(xué)習(xí)方法很難判斷的。
      [0004]基于情感分析的觀點(diǎn)分類是將文本中的單元例如單詞或短語(yǔ)的情感傾向量化為一個(gè)實(shí)數(shù)值測(cè)度,然后通過(guò)分析文本中所有單詞或短語(yǔ)的情感傾向來(lái)確定句子和整個(gè)文檔所表達(dá)的觀點(diǎn)傾向。單詞和短語(yǔ)的情感分析除了考慮單詞權(quán)重和高階詞之外,還要考慮位置、詞性、句法結(jié)構(gòu)等屬性,因此本類方法的特點(diǎn)是高度依賴于自然語(yǔ)言處理工具和人工知識(shí)。自然語(yǔ)言處理的結(jié)果好壞和人工知識(shí)的完備程度直接影響分類結(jié)果。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明技術(shù)解決問(wèn)題:克服現(xiàn)有技術(shù)的不足,提供一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法,不需要大量的人工參與,自動(dòng)性高,也不過(guò)分依賴中文語(yǔ)言的處理優(yōu)劣,并且保證了分類系統(tǒng)結(jié)果輸出的精度。
      [0006]本發(fā)明技術(shù)解決方案之一,包括四個(gè)模塊:頻繁詞集提取模塊,頻繁詞集優(yōu)化模塊,最優(yōu)關(guān)聯(lián)規(guī)則挖掘模塊,文本觀點(diǎn)分類模塊。系統(tǒng)結(jié)構(gòu)圖如圖1所示,虛線內(nèi)為本系統(tǒng)范疇。
      [0007]頻繁詞集提取模塊:數(shù)據(jù)預(yù)處理,把網(wǎng)頁(yè)中獲取的文本除去“是” “我”等常見卻無(wú)用的詞語(yǔ)(降噪),并且用有代表性的詞語(yǔ)表示,該部分不是本發(fā)明的發(fā)明,本發(fā)明只是使用了該部分將原始文本用特征詞表示出來(lái),得到候選詞集。該模塊的輸入為候選詞集,這一部分詞集是從文本中提取的能代表觀點(diǎn)的詞語(yǔ)的集合。對(duì)候選詞集采用Apriori算法,這一算法是數(shù)據(jù)挖掘中的經(jīng)典算法。通過(guò)寬度優(yōu)先的策略自底向上逐級(jí)生成各項(xiàng)頻繁項(xiàng)目集。算法由初始的一維頻繁集開始迭代,在每一輪迭代中,k項(xiàng)集均由k -1項(xiàng)集生成。Apriori算法中的頻繁集的剪枝依賴于“向下封閉屬性”:頻繁項(xiàng)集的所有非空子集都是頻繁的,即如果一個(gè)項(xiàng)集不是頻繁項(xiàng)集,那么它的所有超集必然不是頻繁項(xiàng)集。這一性質(zhì)大大減少了候選頻繁項(xiàng)集的數(shù)目。盡管如此,由于Apriori需要多次搜索數(shù)據(jù)庫(kù),其時(shí)間復(fù)雜度仍然較大,并且如果結(jié)果直接用于關(guān)聯(lián)規(guī)則挖掘,效果并不理想,所以需要進(jìn)行下一步優(yōu)化。[0008]頻繁詞集優(yōu)化模塊:假定文本集合包含η個(gè)文本類別Iclass1,…class」,…classj ,在上一步產(chǎn)生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條。計(jì)算每一個(gè)詞條t在類別中i中的支持度Sup(t)it)而一個(gè)頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度=Sup(FS)i=Iiiin {Sup (O1, Sup (t)2——Sup (t)J。算出每個(gè)Sup (FS) 土之后,根據(jù)公式(2.1)計(jì)算AD - Sup:
      【權(quán)利要求】
      1.一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng),其特征在于包括:頻繁詞集提取模塊,頻繁詞集優(yōu)化模塊,最優(yōu)關(guān)聯(lián)規(guī)則挖掘模塊,文本觀點(diǎn)分類模塊,其中: 頻繁詞集提取模塊,輸入候選詞集本發(fā)明的系統(tǒng),所述候選詞集是從文本中提取的能代表觀點(diǎn)的詞語(yǔ)的集合,對(duì)候選詞集采用Apriori算法,通過(guò)寬度優(yōu)先的策略自底向上逐級(jí)生成各項(xiàng)頻繁項(xiàng)目集,送至頻繁詞集優(yōu)化模塊; 頻繁詞集優(yōu)化模塊:在頻繁詞集提取模塊產(chǎn)生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條,計(jì)算每一個(gè)詞條t在類別中i中的支持度Sup(t)i,而一個(gè)頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度=Sup(FS)^min {Sup (t)1; Sup(t)2——Sup (t) J ,計(jì)算出每個(gè)Sup (FS) i之后,根據(jù)公式(2.1)計(jì)算支持度均方差A(yù)D - Sup:
      2.一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類方法,其特征在于實(shí)現(xiàn)步驟如下: (1)頻繁詞集提取 將候選詞集輸入至本發(fā)明的系統(tǒng),所述候選詞集是從文本中提取的能代表觀點(diǎn)的詞語(yǔ)的集合,對(duì)候選詞 集采用Apriori算法,通過(guò)寬度優(yōu)先的策略自底向上逐級(jí)生成各項(xiàng)頻繁項(xiàng)目集; (2)頻繁詞集優(yōu)化:在步驟(I)產(chǎn)生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條,計(jì)算每一個(gè)詞條t在類別中i中的支持度SupUh,而一個(gè)頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度=Sup(FS)^min {Sup (t)1; Sup(t)2——Sup (t) J ,計(jì)算出每個(gè)Sup (FS) i之后,根據(jù)公式(2.1)計(jì)算支持度均方差A(yù)D - Sup:
      【文檔編號(hào)】G06F17/30GK103473262SQ201310301065
      【公開日】2013年12月25日 申請(qǐng)日期:2013年7月17日 優(yōu)先權(quán)日:2013年7月17日
      【發(fā)明者】袁滿, 歐陽(yáng)元新, 皇甫垚, 熊璋 申請(qǐng)人:北京航空航天大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1